Dall-e-2

2023-05-18 0 评论字数统计: 790(字) 阅读时长: 3(分)

DALL-E 2是一款人工智能图像生成器,它可以根据自然语言的文本描述创建图像和艺术形式。2021年1月,OpenAI推出了DALL-E模型,DALL-E 2是其升级版。“DALL-E”这个名字源于西班牙著名艺术家Salvador Dalí和广受欢迎的皮克斯动画机器人“Wall-E”的组合。

DALL-E 2为AI图像生成器的质量提供了新的基准。它与之前的同类产品相比,能够更好地理解文本描述。要了解AI图像生成器的工作原理,我们首先需要了解CLIP、先验模型和解码器扩散模型(unCLIP)。CLIP指的是对比语言图像预训练,是DALL-E 2架构中最关键的模块。先验模型采用标题/CLIP文本嵌入,并以此为基础生成CLIP图像嵌入。unCLIP则是使用CLIP图像嵌入生成图的原始CLIP模型的逆模型。DALL-E 2通过先验模型和unCLIP模型来创建输出。

只要用户给出精确和具有描述性的文本提示,就可以通过AI艺术生成器得到多个高质量的图像,甚至在几秒钟的时间里实现画家或数字艺术家需要数小时甚至数天才能达到的质量水平。您也可以在DALL-E 2中编辑图像,无需任何照片编辑经验。与Adobe Photoshop不同,使用DALL-E进行编辑非常简单。DALL-E 2使用自己对主题、风格、调色板和所需概念意义的“理解”,生成相应的图像。

DALL-E 2的输出质量很大一部分取决于用户提供的文本提示的质量,文本越具体,获得所需输出的机会就越高。然而,该系统有一些内在的局限性。例如,当前它还不具有很精确组合性,尽管似乎会随着时间的推移而改善。这意味着DALL-E2通常无法有意义地合并多个对象或对象属性,例如形状、方向和颜色。同时在一些意料之外的情况下,有一些相对简单的文本,程序也可能无法充分执行。

DALL-E 2完美吗?作为一项正在完善的项目,答案是否定的。但是,正如机器学习的本质一样,随着时间的推移,该程序正变得越来越聪明,也越来越有能力。从纯技术的角度来看,DALL-E 2是AI技术演进的一大进步。人们普遍认为人工智能系统在创意领域实际上无法超越人类,至少不会很快。但是DALL-E 2已经使这个论点受到了冲击。

本文链接： https://zkkget.github.io/posts/20230518a1.html

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

赵kkjava Developer & pm

纠结体本体,同步记录日常笔记，Write the code, Change the world！