我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。
类似的工具
免费AI 中文社
AI 中文社区 - 一个学习交流 AI 人工智能技术的中文社区
Janitor AI 角色扮演聊天
角色扮演聊天机器人Janitor AI,Janitor AI 被证明是各行业用户的多功能且不可或缺的平台。
CapCut剪映专业版
ai剪辑软件,让创作更简单
在问
在问|全能又免费的人工智能网站。宗旨:让知识无界,智能触手可及
云雀大模型
云雀大模型,字节研发的大模型产品,字节的云雀大模型是首批上线的8家大模型之一。
喵呜提示词助手
将复杂的 Midjourney 提示词"咒语"进行可视化编辑和调整,输入中文提示词自动翻译成英文,傻瓜式操作,帮助您更好的创作提示词
他人最近看的工具
佐糖
佐糖专注于图像处理领域,提供丰富的图像处理工具,将复杂操作极致简化,真正实现让图像处理更简单。
ARTi.PiCS
pics是一款由人工智能驱动的虚拟化身制造商,用户可以上传自己的照片,生成200多个不同风格的酷炫虚拟化身。
AI Surge Cloud
AI Surge是一个无代码的决策...
Debuild.app
AI 支持的低代码工具,可帮助您以极快的速度构建 Web 应用程序。
Replicate
在线运行开源机器学习模型
[新]免费ZCode
ZCode 将最强大的 AI Agents 与现有工具链结合,让你在熟悉的流程中完成规划、编码、评审与上线。https://zcode.z.ai/cn
AI 中文社
