只要「阅读」文本,DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此,当时一经发布,DALL·E 就火遍了 AI 圈,吸粉无数,也让 Language-Vision(文本-视觉)方向又火了一把。
就在今天!时隔一年后,OpenAI 结合 CLIP,又发布了 DALL·E 的第二个版本——DALL·E 2.0!
相比 DALL·E 1.0,DALL·E 2.0 可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成「现实主义」图像与艺术作品!分辨率更是提高了4倍!
比如,当提示文本中分别包含「概念」“An astronaut ”(一个宇航员)、「属性」“riding a horse”(在骑一匹马)和「 风格」“in a phtprealistic style”(超现实风格)时:
文本提示:An astronaut riding a horse in a phtprealistic style(一个宇航员 骑马 超现实风格)
DALL·E 2可以生成如下这些同时包含三种元素的图像:
文本提示:Teddy bears mixing sparkling chemicals as mad scientists as a 1990s Saturday morning cartoon(泰迪熊们 正在像疯狂的科学家一样混合着冒泡的化学物质 20世纪90年代的周六早间卡通片风格)
DALL·E 2生成的图像:
文本提示:Teddy bears shopping for groceries in the style of ukiyo-e(泰迪熊 购买杂货 浮世绘风格)
DALL·E 2生成的图像:
文本提示:A bowl of soup that is a portal to another dimension as digital art(一碗汤 通往另一个维度的门户 数字艺术风格)
DALL·E 2生成的图像:
文本描述的编辑需求:选择一个位置在图中添加柯基。
原图 vs. DALL·E 2编辑后的图像:
2、风格变体
DALL·E 2 可以拍摄一张图片,然后根据原图制作出同一个风格的不同画像。示例如下:
原图 1:
原图 2:
对比之下,DALL·E 1 生成的图像可以说是很模糊了,甚至根本看不出「日出」在哪里,「狐狸」只显露出它的头部,「田野」也不太有田野的样子,而且在整体风格上与画家莫奈的印象派风格相去甚远。
而在DALL·E 2的魔法手笔下,图像质量显著提高,「日出」和「田野」都很生动,小狐狸端坐在草地上,姿态可爱。这幅画作色彩更加丰富,使用了更多的复色,对光影的描绘更加接近莫奈的风格。
总体来说,相比 DALL·E 1.0,DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述,而是对一个场景的整体表达,故事更完整,想象力也更丰富!
更详细的内容,可以查看 DALL·E 2 的相关研究论文:
论文地址:https://cdn.openai.com/papers/dall-e-2.pdf
收下我的膝盖……
参考链接:https://openai.com/dall-e-2/
花粉社群VIP加油站
猜你喜欢