我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。
类似的工具
免费AI 中文社
AI 中文社区 - 一个学习交流 AI 人工智能技术的中文社区
中国人工智能大会
中国人工智能大会创办于2015年,是我国最早发起举办的人工智能大会
TTSMaker马克配音
免费的AI配音平台,可以将文本转换成语音,支持50多种语言和300多种语音风格
ChatBA
帮助用户快速生成高质量的幻灯片
Cognitive Mill
Cognitive Mill是专门为媒体和娱乐行业设计的认知计算云平台。它可以自动编辑和后期制作、媒体质量控制、合规、盗版检查、元丰富和场景索引。利用专有的AI和认知科学技术,提供智能行业自动化,如电视新闻自动浓缩视频和文本摘要,自动生成预告片,自动生成体育亮点,基于AI的片尾/片头检测,基于轻量级计算机视觉的运动图形检测服务,自动裁剪到人像模式模仿人类焦点,分类名人人脸识别元数据自动化,以及内容感知的裸体过滤。
Klap
生成tiktok,短片和卷轴从你的YouTube视频在点击使用人工智能。
他人最近看的工具
一字成文
模拟公务员助理撰写公文
飞链云AI绘画
一款免费且强大的在线AI生成图片的网站
Midjourney Prompt Generator
基于文本和各种选项生成提示的web应用
Kaedim
无论您是构建VR游戏还是3D艺术,Kaedim都可以为您生成高清3D模型。不需要建模经验
中国人工智能大会
中国人工智能大会创办于2015年,是我国最早发起举办的人工智能大会
Klap
生成tiktok,短片和卷轴从你的YouTube视频在点击使用人工智能。
AI 中文社
