AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍

2025-07-08 发布 · 浏览22次 · 点赞0次 · 收藏0次

【导读】刷到1分钟AI短视频别只顾着点赞,背后的算力成本让人惊叹。MIT和英伟达等提出的径向注意力技术让长视频生成成本暴降4.4倍,速度飙升3.7倍,AI视频的未来已来!

刷到1分钟的AI生成短视频时,你可能想象不到背后的算力成本。

传统的视频扩散模型,处理视频时采用密集注意力机制。

这种方法虽然能保证画质,但计算量大得吓人,生成10秒视频就要烧掉数千元算力费用,随着视频长度增加,算力需求呈指数级飙升。

最近,MIT英伟达等研究人员发明的「径向注意力」技术,不仅让长视频生成速度提升3.7倍,还能把训练成本砍掉4.4倍。


论文链接:https://www.arxiv.org/abs/2506.19852

代码链接:

https://github.com/mit-han-lab/radial-attention/

径向注意力

在扩散模型的加持下,高质量视频生成逐渐从科幻变成现实。

但视频的时间维度给算力增加了不少负担,导致训练和推理长视频的成本飙升。

生成10秒视频就要烧掉数千元算力费用,价格之高令人望而却步。

对此,团队从热力学借了点灵感:「没有任何传播是无损的;信号、影响、注意力都会随着距离衰减。」

他们发现视频扩散模型里的注意力分数同样遵循这个规律——softmax后的权重随着token间的空间和时间距离递减。

这种「时空能量衰减」现象与自然界信号的物理衰减不谋而合。

这会不会就是视频生成降本增效的关键?

为进一步证实这种猜想,团队提出了「径向注意力」(Radial Attention):一种计算复杂度仅为O(nlog n)的稀疏注意力机制。

区别于之前SVG每次推理对空间/时间注意力进行动态选择,径向注意力用的是一种统一且高效的静态掩码。

这种掩码把空间和时间注意力合二为一,带来了更灵活、更快的长视频生成体验。


而且,这种简洁的静态注意力掩码让每个token只关注附近空间的邻居。随着时间距离的拉长,注意力窗口逐渐收缩。

相比传统的O (n²)密集注意力,径向注意力不仅大幅提升了计算效率,还比线性注意力拥有更强的表达能力。

在这项注意力机制创新的加持下,高质量视频生成变得更快、更长。

训练和推理的资源消耗极大地降低,为视频扩散模型打开了新的可能。


效果有多惊艳?实测数据来说话

研究团队在三个主流模型上做了测试:HunyuanVideo、Wan2.1-14B和Mochi 1,覆盖了不同参数规模的场景。

Mochi 1可以生成长达5秒、480p分辨率、162帧的视频;HunyuanVideo可以生成长达5秒、720p分辨率、125帧的视频;Wan2.1-14B可以生成长达5秒、720p分辨率、81帧的视频。


速度提升1.9倍到3.7倍

在默认视频长度下(如HunyuanVideo的117帧),径向注意力能把推理速度提升1.9倍左右。

当视频长度扩展到4倍时,速度提升更明显:从2895秒(近50分钟)降到781秒(约13分钟),足足快了3.7倍!

以前一小时才能生成的视频,现在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默认生成长度下,径向注意力与三个强稀疏注意力基线的比较。


在相同的计算预算(以TFLOPs衡量)下,径向注意力保留了密集注意力的视频质量,同时在相似性指标(PSNR、SSIM、LPIPS)上始终优于STA和PA,并与SVG的质量相匹配。


在单个H100上,径向注意力为HunyuanVideo和Wan 2.1分别实现了1.9倍和1.8倍的端到端加速,与理论计算预算节省(1.8倍和1.7倍TFLOPs)相匹配。

尽管STA通过使用 FlashAttention-3(FA-3)产生了略高的加速,但视觉质量明显下降。

训练费用最多节省4.4倍

长视频生成最烧钱的其实是训练阶段。用径向注意力配合LoRA微调技术,训练成本直接大幅下降。

对于企业来说可是天大的好消息,以前做一个长视频项目可能要投入几十万,现在可能只需要几万块。

表2提供了2倍和4倍原始长度的视频生成结果。为了确保公平性,所有稀疏注意力基线使用相似的稀疏率。


当生成长视频时,未经进一步调优的原始模型表现出显著的质量退化,尤其是在4倍视频长度扩展时。

虽然RIFLEx在2倍长度外推时提高了性能,但其质量在此之后恶化,表明扩展能力有限。

空间和时间稀疏注意力受到有限感受野的影响;另一方面,LongLoRA和PA虽然具有全局感受野,但未能捕捉时空相关性,导致质量下降。

有趣的是,PA在微调后视觉奖励有很大提高,表明其原始稀疏模式与预训练的注意力分布不一致。

微调允许模型适应施加的注意力稀疏性,改善对齐和质量。

SANA将softmax注意力替换为线性注意力,需要大规模重新训练,并且在基于微调的视频长度扩展下失败。

相比之下,径向注意力实现了与LoRA微调密集注意力模型相当的质量。甚至在默认视频长度下,比预训练模型略微提高了视觉奖励。


由于O(nlog n)复杂度,径向注意力比原始密集注意力提供了显著的推理和训练加速,如表2和图2所示。

生成4倍长的视频时,可以节省高达4.4倍的训练成本,并实现高达3.7倍的推理加速。

最关键的是,速度和成本降下来了,画质还没缩水。

在HunyuanVideo上,径向注意力的PSNR值达到27.3,和原始模型基本持平;视觉奖励分数0.134,甚至比密集注意力的0.133还高一点点。

不只是快:

径向注意力的「隐藏技能」

很多技术升级都需要重新训练模型,但径向注意力不需要。

它可以直接应用在预训练好的模型上,通过简单的 LoRA 微调就能实现加速。

径向注意力的一个关键优势是与预训练的特定任务LoRA(如艺术风格迁移)的无缝兼容性,这对创作者太友好了。

如图8所示,将扩展长度LoRA与现有风格LoRA结合使用,在实现长视频生成的同时保留了视觉质量。

研究团队还观察到,合并LoRA生成的内容风格与原始LoRA略有不同。

这种差异主要归因于用于训练扩展长度LoRA的相对较小的数据集,这可能引入轻微的风格偏差,与风格LoRA相互作用。

在更全面的数据集上训练长度扩展LoRA,预计将有助于缓解这个问题。

以前生成1分钟的AI视频是很多中小团队不敢想的,现在径向注意力让这事变得可行了。

以后,我们可能会看到更多AI生成的长视频内容,像短视频平台的剧情号。

参考资料:

https://www.arxiv.org/abs/2506.19852

https://github.com/mit-han-lab/radial-attention/

AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。