我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文-花粉乐享

> 乐学堂 > > 我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文

来源：AI科技评论

2023-05-14 02:25:07

259

管理

只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成「现实主义」图像与艺术作品！分辨率更是提高了4倍！

比如，当提示文本中分别包含「概念」“An astronaut ”（一个宇航员）、「属性」“riding a horse”（在骑一匹马）和「风格」“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut riding a horse in a phtprealistic style（一个宇航员骑马超现实风格）

DALL·E 2可以生成如下这些同时包含三种元素的图像：

文本提示：Teddy bears mixing sparkling chemicals as mad scientists as a 1990s Saturday morning cartoon（泰迪熊们正在像疯狂的科学家一样混合着冒泡的化学物质 20世纪90年代的周六早间卡通片风格）

DALL·E 2生成的图像：

文本提示：Teddy bears shopping for groceries in the style of ukiyo-e（泰迪熊购买杂货浮世绘风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup that is a portal to another dimension as digital art（一碗汤通往另一个维度的门户数字艺术风格）

DALL·E 2生成的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像：

2、风格变体

DALL·E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

原图 2：

对比之下，DALL·E 1 生成的图像可以说是很模糊了，甚至根本看不出「日出」在哪里，「狐狸」只显露出它的头部，「田野」也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下，图像质量显著提高，「日出」和「田野」都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL·E 1.0，DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL·E 2 的相关研究论文：

论文地址：https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接：https://openai.com/dall-e-2/

花粉社群VIP加油站

3

赏礼

赏钱

0

免责声明：本文仅代表作者个人观点，与花粉乐分享无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非花粉乐分享）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@hflfx.com

OpenAI凭ChatGPT估值翻番达近2000亿元，至少吸金20亿元

2023-05-14 02:28

Open AI官宣开放API接口！算力需求大涨产业链公司机遇与挑战并存

2023-05-14 02:23