告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

2025-11-26 发布 · 浏览19次 · 点赞0次 · 收藏0次

【导读】在AI视频创作过程中,创作者常因频繁切换多种工具而疲惫,导致创作热情消磨。近期,多所高校联合开源的UniVA框架,像一位「AI导演」,能整合多种视频工具,提供从脚本到成片的一站式自动化体验,改变传统「抽卡」式创作,支持多轮交互和主动纠错,还能实现风格迁移、前传创作等功能,为视频创作带来高效与便捷。

在AI视频赛道「卷生卷死」的 2025 年,我们似乎陷入了一个「工具茧房」:为了做一个完美的视频,我们用ChatGPT生成指令,用Nano Banana生成图,用SAM做分割,用Sora或Kling生成视频,发现怎么一个特效也编辑不好,再导进AE做特效……

要完成一个视频内容的创作,需要来回周转、调用大量的工具。

完成这一切后,身心已然俱疲,当初因灵感迸发而生的激动与创作热情,也在这套繁琐流程中被消耗殆尽。

我们不缺强大的模型,我们缺的是一个能把这些工具「串」有机地起来的脑子。

近期新加坡管理大学、罗切斯特大学、伦敦大学学院、新加坡国立大学、香港中文大学、斯坦福大学联合开源的UniVA (Universal Video Agent),尝试解决这一系列的问题!

UniVA不是一个单一的视频生成模型,而是一个全能型通用视频智能体框架。


论文地址:https://arxiv.org/abs/2511.08521

代码仓库: https://github.com/univa-agent/univa

项目官网: http://univa.online/

它像一位不知疲倦的「AI 导演」,能够听懂你的复杂需求,自主规划路径,统筹调用市面上最强的视频工具,为你提供从脚本到成片的一站式自动化体验。

UniVA 不做「抽卡」工具,它要做的是下一代视频生产的智能引擎。

拒绝「抽卡」

极致自动、主动交互的创作体验


Highly Automated, Interactive, Proactive Video Creation

传统的视频AI是「单指令单任务」:你输入一句Prompt,它给你一段视频,如果不满意?只能修改Prompt重新生成(抽卡)。

UniVA彻底改变了这种交互方式,基于Plan-Act(规划-执行)双智能体架构,让UniVA拥有了「思考」的能力。

全自动规划 (Automated Planning) :UniVA的Planner Agent会自动将模糊需求拆解为结构化的分镜脚本,并将任务分发给Executor Agent执行。

主动式服务 (Proactive Assistance) :不仅仅是执行命令,如果你的指令中有歧义,或者生成的中间结果不达标,UniVA 会进行自我反思 (Self-Reflection)。它会主动问你或自动修正错误,而不是把烂摊子丢给你。

多轮交互共创 (Interactive Co-creation) :UniVA能记住多轮对话的上下文。你可以像和剪辑师聊天一样修改视频,让创作变成一场流畅的协作。

Case 1:一句话生成商业大片

指令:生成一个面包店广告,包含揉面特写、撒花瓣慢动作、顾客笑容及 Brand Logo。

UniVA:Planner 智能拆解剧本 -> 批量生成分镜(揉面、撒花、顾客) -> 智能剪辑 -> 植入 Logo

结果:逻辑清晰、包含多个分镜的 20 秒完整商业广告成片。

告别割裂

全能、统一的工业级生产引擎


Omnipotent, Unified, Industrial-Grade Video Production Engine

UniVA的野心不止于「生成」,而是要解决工业级视频生产中的核心痛点:一致性与连贯性。

基于MCP (Model Context Protocol) 协议,UniVA构建了一个模块化的工具全家桶,实现了真正的All-in-One:

  • 打破能力孤岛:UniVA将视频理解 (Understanding)、生成 (Generation)、编辑 (Editing)、分割 (Segmentation) 四大能力融为一体。它能先「看懂」视频里的主角是谁,再精准地把他「抠」出来,最后进行「重绘」。

  • 工业级一致性:依靠独创的分层记忆机制 (Hierarchical Memory)(包含全局知识、任务上下文、用户偏好),UniVA 解决了长视频创作中最大的难题——角色这一秒是长发,下一秒变短发。它能精准锚定角色特征 (Entity Anchor),确保多镜头叙事中的人物、物体和风格高度统一。

  • 任意条件生成:无论是文生视频、图生视频,还是基于现有视频改写「前传」或「续集」,UniVA 都能轻松驾驭。它甚至能读取一段视频的风格,然后将其无损迁移到另一段完全不同的视频中。


Case 2:风格迁移,剧情无损

指令:保持这段视频的剧情和动作不变,把它变成中国水墨画风格。

UniVA:视频理解模块提取动作骨架 -> 调用风格化工具重绘 -> 像素级对齐。

结果:完美复刻原视频动态的水墨大片,无闪烁、无变形。

参考输入视频

Univa生成的视频

Case 3:无中生有,前传创作

指令:基于这个视频,创作一段它的「前传」。

UniVA:提取角色形象与性格 -> 倒推故事逻辑 -> 生成全新剧情。

结果:人物设定完全一致的全新故事线,实现了真正的「长程记忆」创作。

参考输入视频

UniVA生成视频

拥抱未来

完全开源,定义下一代视频Agent生态


OpenSource & Extensible Ecosystem

下一代视频AI的未来不应被封闭在某个大厂的API墙内,因此,UniVA选择完全开源。

基于MCP的无限扩展UniVA的架构设计是即插即用的。

研究人员集成了Runway或Seedance,明天如果有更强的开源模型出现(比如Sora API),开发者只需编写一个简单的MCP驱动,UniVA就能立刻获得新能力,它是一个会随着社区共同进化的「活系统」。


为了推动行业发展,研究人员同步开源了UniVA-Bench评测基准,首个针对「视频 Agent」的评测基准,不再只看生成质量,而是全面评估智能体的规划能力、工具调用效率、多步推理准确性。

参考资料:

https://arxiv.org/abs/2511.08521

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定极速推送!

告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。