OpenAI多模态新进展：DALL-E3时隔一年半更新，再次颠覆艺术界

wakeman · 发表于 2023-10-7 18:48

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

文 /腾讯科技郭晓静、郝博阳
北京时间9月21日凌晨，OpenAI 宣布企生成式AI艺术平台DALL-E的第三个版本——DALL-E 3已经进入研究预览阶段，并将于10月通过API提供给ChatGPT Plus的用户和企业客户。
一、改变人机交互方式，AI作画更简单

DAll-E 3最大的意义在于，它改变了人与AI交互的方式。你只需要向ChatGPT提问，告诉它你想看到什么，ChatGPT就会根据你的需求，生成为Dall-E 3定制的详细提示。这降低了复杂提示语对使用AI进行艺术创作的高门槛，不仅对 Dall-E 来说是向前迈出的一大步，对整个生成人工智能艺术来说也是如此。OpenAI 表示，“与ChatGPT的这种联系让更多的人能够创作人工智能艺术，因为他们不必非常擅长提出提示。”
Dall-E3更像是把ChatGPT作为人类的一个助手，人类和ChatGPT沟通、并和ChatGPT一起头脑风暴，ChatGPT把人类的想法翻译成更能让Dall-E 3理解的”提示语“，最终让人类的想法能得到AI更精确的实现。
Dall-E3 还允许用户通过 ChatGPT 完善创作，就好像他们要求真正的艺术家进行更改一样。“你真的不必担心很长的提示，”首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 说。“相反，您可以与 ChatGPT 进行交互，就像与同事交谈一样。”
OpenAI Twitter的官网上还发布了演示视频，详细展示如何操作：
首先，在ChatGPT的界面上输入提示词，之后ChatGPT会返回四张生成的图片。就如Aditya Ramesh 所说，如果你不满意，还可以让ChatGPT进行修改。
二、让图文生成言出法随，细节绘制效果炸裂

除了提示词非常复杂之外，对于经常使用 Stable Diffusion 或 Midjourney 的AI画师来讲，很多时候提示就像炼丹，模型生成的画面总有和你的提示对不上的地方。这在很大程度上反映出文字生成图像AI对于文字与图像之间对应关系存在着理解误差，会倾向于忽略单词或描述。在这方面，从Dalle 2开始就采用Clip技术建立了图像到文字映射编码的OpenAI做出了新的突破：言说即所得。你进行提示的自然语言中的所有细节都和生成内容能够一一对应。

但在OpenAI给出的示例图中，其实我们也看到了一些缺乏对应细节的情况：比如这张宝藏沉船图里压根儿就没有宝藏。

除了简化“提示工程”，让人和机器的对话门槛更低，DALL·E 3还可以准确地表示具有特定对象和它们之间关系的场景。在生成图像中的文本以及手部等人体细节方面，DALL·E 3相比DALL·E 2有显著的改进。

以下这张图像由 Dall-E 3 渲染，Dall-E 3 首先根据以下提示生成了这张图像：“一幅由半透明玻璃制成的人类心脏的插图，站在波涛汹涌的大海中的基座上。阳光穿透云层，照亮心灵，露出里面的小宇宙”。“找到你内心的宇宙”这句话被用粗体字母蚀刻在地平线上。”我们可以清晰地看到这张图像透明的质感，以及清晰的文字。

三、版权争议仍在，OpenAI回应

关于争议最大的版权问题，该公司的政策研究员Sandhini Agarwal表示，她对其安全措施“非常有信心”，但OpenAI在官网澄清说，”该模式不断改进，并不完美“。OpenAI的代表在一封电子邮件中表示，DALL-E 3已经接受了拒绝”以在世艺术家的风格“生成图像的训练。不同于DALL-E 2，当提示时，DALL-E 2还可以模仿某些在世艺术家的风格。
为了避免诉讼，OpenAI还将允许艺术家从未来版本的文本到图像AI模型中选择自己的艺术。创作者可以在其网站上提交一张他们拥有权利的图片，并以表格形式要求删除。DALL-E的未来版本可以阻止看起来与艺术家的图像和风格相似的结果。艺术家起诉DALL-E的竞争对手Stability AI和Midtravel，以及艺术网站DeviantArt，指控他们使用受版权保护的作品训练文本到图像模型。

四、外界可能再也看不到DALL-E3的技术细节了

Dall-E 是皮克斯角色 Wall-E 和艺术家萨尔瓦多·达利 (Salvador Dalí) 的合成词，OpenAI于 2021 年对外界宣布了DALL-E 。DALL-E可以将自然语言形式表达的大量概念转换为恰当图像。
DALL-E根据提示语生成的图片（来源于OpenAI 官网）
2022年4月，DALL-E2发布，根据OpenAI的官网介绍，DALL-E2在对提示语反应的准确度，及照片的真实度上，都有大幅提升。并同时公开了关于DALL-E2的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》，在其中OpenAI的底层技术Clip编码和GLIDE优化扩散模型的细节都得到了完整的披露。
很遗憾的是，时隔一年半，DALL-E3终于要面世，然而我们还未在官网上找到OpenAI公布的任何技术细节，而且很有可能不会再被公开。
不管怎样，DALL-E3的推出，及其与ChatGPT的集成，让外界继续看到了OpenAI在多模态的进展中迈出一步。就在两周前，据外媒报道，OpenAI的全新多模态模型Gobi似乎已经在筹备中，而OpenAI并未做出任何正面回应。就在上周，谷歌已经对一些公司开放了多模态大模型Gemini的功能。两个巨头的多模态对决一触即发。

账号		自动登录	找回密码
密码			注册