找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 47|回复: 0

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2023-10-7 18:48 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.jpg


文 /腾讯科技 郭晓静、郝博阳
北京时间9月21日凌晨,OpenAI 宣布企生成式AI艺术平台DALL-E的第三个版本——DALL-E 3已经进入研究预览阶段,并将于10月通过API提供给ChatGPT Plus的用户和企业客户。
一、改变人机交互方式,AI作画更简单

DAll-E 3最大的意义在于,它改变了人与AI交互的方式。你只需要向ChatGPT提问,告诉它你想看到什么,ChatGPT就会根据你的需求,生成为Dall-E 3定制的详细提示。这降低了复杂提示语对使用AI进行艺术创作的高门槛不仅对 Dall-E 来说是向前迈出的一大步,对整个生成人工智能艺术来说也是如此。OpenAI 表示,“与ChatGPT的这种联系让更多的人能够创作人工智能艺术,因为他们不必非常擅长提出提示。”
Dall-E3更像是把ChatGPT作为人类的一个助手,人类和ChatGPT沟通、并和ChatGPT一起头脑风暴,ChatGPT把人类的想法翻译成更能让Dall-E 3理解的”提示语“,最终让人类的想法能得到AI更精确的实现。
Dall-E3 还允许用户通过 ChatGPT 完善创作,就好像他们要求真正的艺术家进行更改一样。“你真的不必担心很长的提示,”首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 说。“相反,您可以与 ChatGPT 进行交互,就像与同事交谈一样。”
OpenAI Twitter的官网上还发布了演示视频,详细展示如何操作:
首先,在ChatGPT的界面上输入提示词,之后ChatGPT会返回四张生成的图片。就如Aditya Ramesh 所说,如果你不满意,还可以让ChatGPT进行修改。
二、让图文生成言出法随,细节绘制效果炸裂

除了提示词非常复杂之外,对于经常使用 Stable Diffusion 或 Midjourney 的AI画师来讲,很多时候提示就像炼丹,模型生成的画面总有和你的提示对不上的地方。这在很大程度上反映出文字生成图像AI对于文字与图像之间对应关系存在着理解误差,会倾向于忽略单词或描述。在这方面,从Dalle 2开始就采用Clip技术建立了图像到文字映射编码的OpenAI做出了新的突破:言说即所得。你进行提示的自然语言中的所有细节都和生成内容能够一一对应。
2.jpg


但在OpenAI给出的示例图中,其实我们也看到了一些缺乏对应细节的情况:比如这张宝藏沉船图里压根儿就没有宝藏。
3.jpg


除了简化“提示工程”,让人和机器的对话门槛更低,DALL·E 3还可以准确地表示具有特定对象和它们之间关系的场景。在生成图像中的文本以及手部等人体细节方面,DALL·E 3相比DALL·E 2有显著的改进。
4.jpg


以下这张图像由 Dall-E 3 渲染,Dall-E 3 首先根据以下提示生成了这张图像:“一幅由半透明玻璃制成的人类心脏的插图,站在波涛汹涌的大海中的基座上。阳光穿透云层,照亮心灵,露出里面的小宇宙”。“找到你内心的宇宙”这句话被用粗体字母蚀刻在地平线上。”我们可以清晰地看到这张图像透明的质感,以及清晰的文字。
5.jpg


三、版权争议仍在,OpenAI回应

关于争议最大的版权问题,该公司的政策研究员Sandhini Agarwal表示,她对其安全措施“非常有信心”,但OpenAI在官网澄清说,”该模式不断改进,并不完美“。OpenAI的代表在一封电子邮件中表示,DALL-E 3已经接受了拒绝”以在世艺术家的风格“生成图像的训练。不同于DALL-E 2,当提示时,DALL-E 2还可以模仿某些在世艺术家的风格。
为了避免诉讼,OpenAI还将允许艺术家从未来版本的文本到图像AI模型中选择自己的艺术。创作者可以在其网站上提交一张他们拥有权利的图片,并以表格形式要求删除。DALL-E的未来版本可以阻止看起来与艺术家的图像和风格相似的结果。艺术家起诉DALL-E的竞争对手Stability AI和Midtravel,以及艺术网站DeviantArt,指控他们使用受版权保护的作品训练文本到图像模型。
6.jpg


7.jpg


四、外界可能再也看不到DALL-E3的技术细节了

Dall-E 是皮克斯角色 Wall-E 和艺术家萨尔瓦多·达利 (Salvador Dalí) 的合成词,OpenAI于 2021 年对外界宣布了DALL-E 。DALL-E可以将自然语言形式表达的大量概念转换为恰当图像。
DALL-E根据提示语生成的图片(来源于OpenAI 官网)
2022年4月,DALL-E2发布,根据OpenAI的官网介绍,DALL-E2在对提示语反应的准确度,及照片的真实度上,都有大幅提升。并同时公开了关于DALL-E2的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》,在其中OpenAI的底层技术Clip编码和GLIDE优化扩散模型的细节都得到了完整的披露。
很遗憾的是,时隔一年半,DALL-E3终于要面世,然而我们还未在官网上找到OpenAI公布的任何技术细节,而且很有可能不会再被公开。
不管怎样,DALL-E3的推出,及其与ChatGPT的集成,让外界继续看到了OpenAI在多模态的进展中迈出一步。就在两周前,据外媒报道,OpenAI的全新多模态模型Gobi似乎已经在筹备中,而OpenAI并未做出任何正面回应。就在上周,谷歌已经对一些公司开放了多模态大模型Gemini的功能。两个巨头的多模态对决一触即发。
8.jpg
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-9-14 01:24 , Processed in 0.138370 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表