我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
他人最近看的工具
Writer
为您的业务打造的生成式 AI,世界一流的公司使用 Writer 大规模解锁品牌内容
Meshy
Create Stunning 3D Game Assets with AI
Petalica paint
Petalica paint用AI为你的画自动上色!
Visla
快速轻松地创建和定制视频
纸质书:《动手学深度学习》
全球60多个国家400多所大学用于教学
NumPy
NumPy是Python科学计算必备的包
AI 中文社
