一张图即可生成电影级数字人视频：阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

2025-08-27 发布浏览1252次点赞0次收藏0次

8 月 26 日消息，今日晚间，阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V，仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

据介绍，该模型单次生成的视频时长可达分钟级，大幅提升数字人直播、影视制作、AI 教育等行业的视频创作效率。

目前，Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片，并支持肖像、半身以及全身等任意画幅，上传一段音频后，模型就能让图片中的主体形象完成说话、唱歌和表演等动作。

Wan2.2-S2V 还支持文本控制，输入 Prompt 后还可对视频画面进行控制，让视频主体的运动和背景的变化更丰富。

例如，上传一张人物弹钢琴的照片、一段歌曲和一段文字，Wan2.2-S2V 即可生成一段完整、声情并茂的钢琴演奏视频，不仅能保证人物形象和原图一致，其面部表情和嘴部动作还能与音频对齐，视频人物的手指手型、力度、速度也能完美匹配音频节奏。

据介绍，Wan2.2-S2V 采用了基于通义万相视频生成基础模型能力，融合了文本引导的全局运动控制和音频驱动的细粒度局部运动，实现了复杂场景的音频驱动视频生成；同时引入 AdaIN 和 CrossAttention 两种控制机制，实现了更准确更动态的音频控制效果；为保障长视频生成效果，Wan2.2-S2V 通过层次化帧压缩技术，大幅降低了历史帧的 Token 数量，通过该方式将 motion frames (注：历史参考帧) 的长度从数帧拓展到 73 帧，从而实现了稳定的长视频生成效果。

在模型训练上，通义团队构建了超 60 万个片段的音视频数据集，通过混合并行训练进行全参数化训练，充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理，可支持不同分辨率场景的视频生成需求，如竖屏短视频、横屏影视剧。

实测数据显示，Wan2.2-S2V 在 FID（视频质量，越低越好）、EFID（表情真实度，越低越好）、CSIM（身份一致性，越高越好）等核心指标上取得了同类模型最好的成绩。

阿里云表示，自今年 2 月以来，通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型，在开源社区和三方平台的下载量已超 2000 万。

开源地址：

GitHub：https://github.com/Wan-Video/Wan2.2
魔搭社区：https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

体验地址：

通义万相官网：https://tongyi.aliyun.com/ wanxiang / generate
阿里云百炼：https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

体验 AI mod 4 阿里云通义千问性能 models

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

一张图即可生成电影级数字人视频：阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。