我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
类似的工具
千库AI·无限画
AI应用场景全面覆盖,未来将创造无限可能
DragGAN(GitHub)
全部开源,支持Windows, macOS, Linux
美图设计室-AI绘画
AI智能工具 为设计助力
秒画-SenseMirage
打造AI画图“模型超市”,心想画成
其他人也看的工具
7AAI绘画资源站
免费的AI绘画生成词及AIGC教程资源分享平台
IMI Prompt推荐
IMI Prompt生成器是一个AI艺术生成器,帮助用户创建独特的艺术作品。凭借其广泛的艺术风格,颜色和对象的选择,用户可以轻松地生成艺术作品,而不需要知道复杂的术语。该应用程序是用户友好的,并经常更新,以与最新版本的Midjourney兼容。该博客还提供了每日主题的教程和记录,以帮助用户开始使用Midjourney。
Gan.ai
增加最重要的意识、观看、分享和参与。
Emind
打造你的专属AI助手
Morphlin
Morphlin 是一款基于人工智能的工具,旨在通过为交易者提供有效的借贷策略、网格策略以及跨市场和交易所的实时信号推送通知来增强交易者的能力。
酷芯微电子
应用于智能安防、智能硬件、智能车载等多个领域。
AI 中文社
