Imagen【推荐试用】

Imagen【推荐试用】

我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。

标签: 文生图 图像扩散模型 文本转图像 文转图像模型

浏览(306) 点赞(0) 收藏(0) 反馈 访问工具

我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。Imagen在没有经过COCO训练的情况下,在COCO数据集上获得了7.27的最新FID分数,并且人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试。使用DrawBench,我们将Imagen与最近的方法进行了比较,包括VQ-GAN+CLIP、潜在扩散模型和DALL-E 2,并发现人类评分者在并排比较中更喜欢Imagen,无论是在样本质量还是图像-文本对齐方面。

类似的工具

其他人也看的工具

爱改写

实现知识经济和数字化营销最大价值

造梦日记

将文字快速生成高质量图片的应用

Beepbooply

Beepbooply是一款人工智能驱动的文本转语音工具,允许用户快速轻松地生成具有逼真声音的音频内容。超过80种语言、120种口音和900种声音,用户可以自定义他们的音频,并生成几个小时的高质量音频内容,只需点击一个按钮。Beepbooply提供个人和商业使用的免费和付费级别,并允许无限的下载和项目。

WellSaid labs

WellSaid是一款人工智能文本转语音工具,允许用户根据文本创建真实、自然的画外音。它提供了一系列语音化身,并帮助团队在项目上协作,允许更快的生产时间。它适用于企业,可用于各种应用,如有声书、营销、客户支持等等。

电子科技大学计算机科学与工程学院

学院有计算机科学与技术(智能金融与区块链金融“双A”联合学位实验班)、计算机科学与技术(“互联网+”复合型精英人才双学位培养计划)、人工智能、计算机类(计算机科学与技术、网络空间安全、数字媒体技术、数据科学与大数据技术)4个本科专业。且计算机科学与技术、网络空间安全为国家级特色专业,现有在校生3500余人,其中本科生近1800人,硕博研究生1500余人,留学生近200人。

GLASS

GLASS有效的问题表述,也称为诊断性单行词,包括相关的人口统计学、相关病史或流行病学危险因素、疾病的持续时间和速度,以及关键体征和症状以及关键数据(实验室、影像学、体格检查数据)。


0条评论
提倡鼓励AI创业者,一个产品需经历无数次失败才能成品。
评论

游客
登录后再评论
  • 赠人玫瑰,手有余香。
  • 和谐社区,和谐点评。