微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

2024-04-22 发布浏览518次点赞0次收藏0次

4 月 21 日消息，据微软官方新闻稿，微软今天公布了一项图生视频的 VASA-1 框架，该 AI 框架只需使用一张真人肖像照片和一段个人语音音频，就能够生成精确逼真的对口型视频（生成念稿子的视频），据称在表情和头部动作方面特别自然。

目前业界相关许多研究都集中在对口型上，而面部动态行为及头部运动情况通常被忽视，因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往面部生成技术的限制，研究人员利用了扩散 Transformer 模型，在整体面部动态和头部运动方面进行训练，该模型将所有可能的面部动态，包括嘴唇动作、表情、眼睛注视和眨眼等行为均视为单一潜在变量（即一次生成整个具有高度细节的人脸），号称能够即时生成 512×512 分辨率 40 FPS 的视频。

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

微软还利用了 3D 技术辅助标记人脸面部特征，并额外设计了损失函数，号称能够让 VASA-1 不仅能够生成高品质的面部视频，还能够有效地捕捉和重现面部 3D 结构。

AI 框架微软

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

微软推出 VASA-1 AI 框架，可即时生成 512x512 40FPS 逼真对口型人像视频

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。