AI 中文社/资讯/详情

独家专访Pika：Sora is not very hard to beat，我们的算法能够以小胜大｜AI Pioneers

2024-06-11 发布 · 浏览314次 · 点赞0次 · 收藏0次

人类正在迎来人工智能领域的爆炸式更新，技术向未知拓展的每一步，几乎都引起惊人的关注度。

在人工智能边界扩张的过程中，重要赛道的技术路线创新与分歧并存。技术先锋者的判断和选择，影响着众多跟随者的脚步。

过去一年，机器之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给大家，为他们在互联网世界留下了第一份 “万字访谈底稿”。在技术路线尚未收敛的阶段，我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。

因此，我们推出 “AI Pioneers” 的专栏，希望继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者，介绍 AI 赛道最出众、高潜的创业公司，分享他们在 AI 领域最前沿、鲜明的认知。

作者：姜菁玲

机器之心报道

即使Sora已经强势“炸”过场，Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。

6月5日，Pika宣布已完成8000万美元（约合人民币5.8亿元）的B轮融资，总融资额达到1.35亿美元，较2023年末，公司投后估值实现翻倍至4.7亿美元。

“我们会更aggressive地做视频大模型”，这家刚刚度过一周年生日的视频生成创业公司，计划在这轮融资之后快速扩张研究和工程师团队。

四个月前，来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点，拉高了整个视频生成赛道的技术水平，引发了全球对视频生成的狂热。像LLM领域一样，视频生成貌似也开始变成追赶OpenAI的游戏。

同样是在掌声中出道，去年11月，Pika1.0产品由于出色、令人惊艳的视频生成效果，以及支持用户实时进行视频编辑和修改的突破性功能，快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月，pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。

^{Pika 1.0产品视频}

今年4月，Adobe在自己的视频编辑工具 Premiere中嵌入了三大外部合作商，分别是Pika、Runway以及OpenAI。视频生成赛道已是三足鼎立局面。

在OpenAI的暴力美学下，Pika如何评估Sora带来的竞争压力，如何找到自己的超越路径，成为一个值得期待的问题。伴随着这次融资的敲定，Pika在风投界显然已经拿出了足够有说服力的答案。但是，这个答案会是什么？

在融资正式敲定后，Pika团队接受了机器之心的独家专访。在这场访谈中，机器之心对谈了Pika团队的多名核心成员，包括两位联合创始人郭文景（Demi Guo）和孟辰霖（Chenlin Meng），创始工程师陈思禹（Karli Chen）、以及Pika算法工程师王熠鹏。

如果你用AI来总结下面的访谈，企图回答这个问题。他或许会用结构化的回答告诉你，Pika拥有的是强大的团队、高效的算法、明确的目标以及产品力。

同时，Pika团队对我们透露，在今年年底之前，Pika将发布最新一代产品更新，新产品将展现Pika在可控性上的进步。

Sora is not very hard to beat

机器之心：首先恭喜Pika时隔半年再次完成新的融资，我们先来聊聊这轮融资的情况，用途主要是什么？

Pika：好。这轮融资我们融了8000万美元，估值相比于上次融资（2023年12月）翻了一倍，现在是4.7亿美元。之后我们要训练自己的视频大模型了，融资是为了帮我们去加速这件事发展，一方面是获取更多模型需要的资源，另一方面我们也希望能招更多的人去加入我们视频大模型的团队，不论是算法研究还是工程师。

机器之心：能否介绍下你们目前的团队，以及希望扩张的规模和具体方向？

Pika：过去一年以来，Pika团队从3人扩张到了13人。人才是我们重要的优势。

工程方面，我们拥有6个IOI国际信息学奥赛⾦牌获得者，超过AI工程师Devin的幕后公司cognition AI （5个⾦牌获得者，10个⾦牌），⼀共有9块国际奥赛⾦牌，3个 IOI世界第⼀，2个putnam fellow (美国⼤学最⾼的数学奖项）。创始团队Demi Guo是IOI银牌，是美国队⼗⼏年来唯⼀的⼥国家队队员。

科研方面，创始人孟辰霖是DDIM、Img2Img、Model Distillation的作者，这些方法能将扩散模型的推理速度提高几十到上百倍不等。同时，谷歌视频大模型Lumiere项目的一作Omer Bar-Tal，在sora发布第二周选择加入Pika。

另外，斯坦福AI实验室主任Chris Manning、最有名的扩散模型研究教授之⼀Stefano Ermon、以及两次奥斯卡获得者，曾参与过加勒比海盗、星球大战等电影特效制作的Ron Fedkiw，都是Pika公司的顾问团队。

我们目前open to 不同背景的聪明人，base地不限，不论是数据、系统、模型算法研究、应用算法研究等方面的人才，都非常欢迎。（hr@pika.art https://pika.art/careers）

机器之心：今年2月份，OpenAI推出的Sora改变了视频生成赛道的格局，你们是怎么看待Sora的？

Pika：对于Sora，我觉得虽然大家第一眼看上去觉得好像确实印象特别好，因为好像确实从来没有见过这样的视频生成质量。

但是我们仔细分析了一下，其实它并不是一个非常novel（新颖）的东西，包括它的模型、算法、结构，其实都是现有的。那对于它的结果（效果更好），其实就是告诉了我们一个道理：用更多的机器、更多的数据，暴力地去Scale up，就可以达到更好的效果。

在此之前，可能大部分的人在说，我要去不断提高我的算法，调优模型，但是实际上大家低估了这个Scaling up的重要性。这个其实对大家来说是一个非常积极的信号，也就等于告诉大家，你只要用相同数量的卡、相同好的数据，理论你就可以达到Sora的效果。

机器之心：那你们会怎么理解自己跟Sora之间的差距？

Pika：我的感觉就是，Sora is not hard to beat。只是说scaling确实很重要。

机器之心：对于因为Sora而备受关注的DIT架构，你们会觉得这就是视频生成的确定性路线了吗？

Pika：我们认为还没有到DIT就是确定性路线的时候。这是一个很开放的问题，或者换句话说，我认为以目前视频生成的行业阶段来看，还没有到说一种架构，一定能够比另一种架构有更清晰优势的时候。因为我觉得格局也没有发生本质的改变。

机器之心：也就是说，你们用的不是DIT架构，对吗？

Pika：我们内部会有不同方向的探索，但细节不便透露。不过我们考虑这个问题，角度不会那么单一。因为我们需要从系统性的方面衡量这个问题。但在科研上，我们会对结构的效率做进一步研究，这也是未来的一个潜在研究方向。目前我认为，重要的点，一是可控性，其次是效率问题，这是容易被忽略的，任何结构它需要将效率摆在第一位。

机器之心：效率具体指的是，训练还是推理，还是一起？

Pika：指的是用户的使用成本效率，基本可以等同于推理效率。当然，训练效率也包括其中，也很重要。

机器之心：也有观点认为，Sora的效果一部分需要归功于它背后调用了自己的GPT系列模型去做用户语言理解，这个方面Pika怎么看？

Pika：文字理解的准确性是非常重要的，但是否调用GPT系列模型，这个其实在视频生成赛道不构成一个竞争点。市面上也有很多开源或闭源的模型可以实现跟它差不多的效果。其实，从竞争看，OpenAI在视频生成上所拥有的所有东西，都不是绝对性的优势。

机器之心：这轮融资里，是否也有投资人会问，跟OpenAI相比的话，你们公司的一些优势是什么？你们是怎么想的？

Pika：对，我觉得我们跟OpenAI还是有差异的，我们公司的目标并不是做AGI，而是说做一个服务创作者的产品。这是本质的区别。我们的目标是帮助大家实现自己的创意。

那在视频生成模型上，我们之间是有相似性的，我们认为自己是不会让步的。我们肯定要对标、超越，然后在产品上做自己的努力。

机器之心：对标、超过Sora，会有一个大概时间表吗？

Pika：Later this year.对，今年晚些时候。

Pika的路径：Smart、高效、Not only 「text」based

机器之心：如果说你们要实现更好的效果，会意味着说就是要去做更大的Scaling吗？

Pika：Scaling是有上限的。我们不可能一下子从几百张卡scale到几万张卡，这个很不现实。另外，GPU本身在内存等硬件方面也都是有上限的。所以如果说大家scale到一定程度了，是无法一直scale下去的，接下来需要看大家其他方面的技术实力。

如果我们参考一下OpenAI和Anthropic这两家公司，我们会发现，Open AI肯定是资源最多、数据最多的，但是这并不妨碍别人用更加smart的方法，用稍微少一点的数据达到更好的效果。

机器之心：在sora出现之后，你们有去买更多的卡吗？

Pika：我们其实有非常多的卡，到目前为止，我们的卡也是非常充足的。

机器之心：现在你们想要做的更好的话，采取的方法是什么？

Pika：我们内部有一套自己的方法，非常重视研究和创新，我们的文化是重视大家的智慧，然后要把东西做到最Smart。所以我们的核心点是要用非常前沿和可靠的算法去打造我们的模型，让它能够做到，第一非常Scalable、第二可以以小胜大，用更少一点的资源，得到更好的效果。

机器之心：具体在视频生成上，你们会怎么做，实现以小胜大，有明确的技术方法了吗？

Pika：我们有明确的技术方法去实现它，我可以分享一下high level的想法：

因为视频是一种高维的数据，比如说对于每秒24帧的1080p视频，它的分辨率是1920×1080，这个数据每秒的维度是：

1920×1080×3×24 = 155520000。

这个维度非常大，对于AI来说处理起来非常困难。如果说再乘上时间，60秒，就更大了。所以这个dimension是非常高的。

但是你知道，在AI中大家都知道的，curse of dimensionality（维度诅咒，指随着数据维度的增加，数据变得越来越稀疏，从而导致模型的训练和预测变得更加困难），就是说你的维度越高，你需要的数据量就越大。

那随着1080p视频时间的增加，所需要的数据量就会指数增长，因为视频中的每一帧都包括了大量的信息，而随着时间的推移，帧的数量也会增加，从而导致所需数据量的指数级别增加。

然而，在现实中，这是不切实际的。因为一个高清视频，你视频越长，它（存在）的数量就越少，所以这是一个非常有趣的dilemma（困境）。

但是好处在于，实际上视频有点像一个“low dimensional manifold”（低维流形，一种数学概念，指维度较低的特殊空间结构），嵌入在高维空间中，也就是说它的每一个维度实际上是相互关联的。

比如，我们想生成一个人在路上走路了10秒的视频。实际上，我们只需要知道第一个帧的信息，比如这个人走路的背景、他的穿着等细节，后面的帧你就不再需要完整的画面，你可能只需要一些很小的信息，比如这个人走路的姿势、或者说是背景当中汽车在移动。

这个是我们这边的一个insight，就是说，有一种成功的算法，可以让这个高维数据投影到一个低维空间。用这个方法，首先你可以绕过the curse of dimensionality，其次，可以让你生成视频的效果变得更好。以及，由于你的维度变低了，所以你训练模型的效率和成本就大大降低了。

这个是我们花了很多精力的一种高效架构和数据压缩方法。这种算法能够去掉90%的冗余信息，进而帮助降低数据的维度。比如你原本有几百页的文档，经过处理后，现在需要处理的数据只有几十万，这样就大大节省了算力。这是一种更加紧凑的表达方式，因为维度越大需要的参数越多，难度就更大，而我们使用这个方法所需要的参数应该是比较低的，所以不管是从数据效率、训练效率、推理效率上，都实现了更加高效。

机器之心：这个算法的底层思路可能是怎样的？

Pika：本质上，我们是希望让我们的模型能够像人类一样思考。比如说人看这个视频，可能只需要很少的信息，第一比如只需要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二，可能需要一个动作的引导，比如这个人是以这样的姿态、这样的速度在走路。

然后我们这边发现的一个情况就是，实际上在应用场景下，虽然市场上有很多Text to video（文生视频），但真正运用起来没人在乎是不是「Text」to video。因为核心是大家更希望能够生成一个能够可控的视频。

比如有人说想生成一个人以这样的姿势走路，这其实很难用语言来描述，但如果给他提供一个引导，比如一个参考视频，说这个人是这样的姿势走路。或者说，希望这人穿这样的衣服，也不知道怎么描述，可能那就给他提供第一帧。

总之就是我们想建立一个模型，让它能够像人类一样思考，我们也想超越文本的交互形式，让人类可以很好地去控制它。

当我们能够把那些motion prior（运动先验，表示对常见运动模式或行为的先验理解，这些先验信息可以帮助模型更好地理解和预测视频中的运动）、image prior（图像先验）嵌入到我们的模型里，那么自然而然，这个模型可以更好地理解人类，同时会学到更好的连续表示。

机器之心：你的意思是，可能更高效的视频生成指令不一定是「text」这种形式？

Pika：是的。因为我们发现，用户其实并不在乎是不是「text」to video这种形式。另外我们也发现，text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior（先验），比如运动、风格，去帮助用户表达，这也体现了我们比较以用户为中心的理念。

机器之心：我看你们已经上线了「style」「lipstick」这些组件，之后会拓展更多类似这样的组件是吗？

Pika：对，这样也能够反过来使我们的模型更能像人类一样思考。其实主要就是因为这些动作或者说信息，它是很难用语言去描述的，像我们该怎么去告诉AI说我希望它的嘴唇是怎么运动的呢？很难。所以我们就采用这种Prior的形式，它是有效的。之后我们还会有更多的这方面的更新。

机器之心：你们之前提到过，产品的最终目标是希望做一个interface for creator，听起来这些组件像是对这个界面的完善。

Pika：我们把interface理解成人类和机器交流的语言，人类和机器不能直接交流，而经过训练后的interface可以让人类向机器传达想法。这个界面可以让系统串联起来，为目标服务，我们的产品会解释模型，模型促进产品实现。我们不会局限于一种表达方式，如果用户需要一种应用，我们就会去调整模型，调整表达方式，然后推荐给用户。我们跟自己的用户走的很近，像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。

视频生成行业仍在70分阶段可用性还没有得到本质解决

机器之心：开年以来大家一直在说，2024年是视频生成的爆发之年。你们认同吗？

Pika：从关注度来讲，是认同的。事实上在sora发布之后，确实得到了很多的关注。所以我觉得OpenAI的产品发布让更多的人认识到了这样一个领域的存在，其实也是一件非常好的事情，所以行业知名度上确实是爆发的。

不过从技术上来讲，是否是今年爆发，很难预测。各家都在做努力，我们还是相信量变会引起质变。

从应用上来看，我认为现在有点像LLM领域ChatGPT出现之前的爆火，比如GPT-3出现的时候，大家也是很兴奋的，但是它没有一个很好的落地场景，现在的视频生成也在这个阶段，可能还是需要在模型迭代之后，被更多人用起来，大家实现了观念上的转变，这个可能是一个真正的爆发。

就像我们已经很习惯掏出手机，用一些应用来修图，未来几年，我们可以相信，生成和编辑视频也是跟现在用手机P图一样简单。

我相信就是在未来的一个时刻，就肯定视频这样的一个模态，是会有它非常重要的使用场景，我相信它是可以实现一个真正的爆发，但可能未必是今年会有一个非常确定的一个时间线。

机器之心：如果说，评价视频生成行业技术阶段，从不成熟到成熟对应0-100分，你认为行业现在处于几分？

Pika：我认为是70分左右。拿Sora来讲，现在它更多是一个概念验证产品，并没有真正解决问题。

我们从别人分享的使用过程里看到，比如当时有个关于气球的生成视频，它的作者写了一篇很长的帖子，讲它的历史表现并不是特别好，可能要试几百个视频，才能实现生成一个满意的视频，而且如果直接生成高清视频，分辨率还是非常低，所以他们可能是生成一个低清的，然后再用那些人工的超分辨率方法去做超分辨率处理后放上去。

另外它的效率也非常低，需要很长时间，比如 12 分钟才能做出一个成品。这个距离真正能够毫无压力商用，还是有一定差距的，所以我认为整个行业应该差不多在 60 到 70 分左右的范围。

机器之心：在6、70分的阶段，要迈向100分，可能中间比较重要的待解决问题是什么？

Pika：第一是准确性，怎么可以把用户的意图准确地表达出来；第二是可控性，怎么按照用户的意图对视频进行控制，你可以看到现在即使在图片领域，也没有做的很好；其次就是效率的问题，怎样迅速地去生成视频。

机器之心：那在这几个方面你们会横向去对比其他公司吗？标准可能是怎样的？

Pika：因为我的感觉就是这个行业可能就像我说的，大家都差不多六七十分。可能现在有些人稍微领先有一两分。但大家都没有本质地解决这些问题。

所以可能现在的这个对比可能不是特别的有价值。最核心的这个可用性方面，以及刚刚提到这几个点都还没有得到本质的解决。现在去谈一些很细致的对比，可能就没有特别大的意义。

尤其是从用户的层面，就可能从技术的层面，你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技术层面的。

我们还是希望这样AI是真的能够为为Creator所用，希望用户觉得这是一个可以使用的产品。所以这个角度看，我认为，目前阶段可能还是在内部把模型和产品打磨地更加完善，才是第一要义。

机器之心：像这些问题，会因为scaling而逐步解决吗？

Pika：因为像可控性这个点，以后不会仅仅停留在文本控制生成视频的层面，会需要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora其实也有可控性的问题。

所以这个可能不能仅仅从AGI的角度去看，而是要从真正的产品角度去想。

所以你可以看到，我们新发布的很多功能，基本都是从实际用例出发，而不是仅仅从模型进展。

机器之心：Pika在这几个问题上的思路和优势是什么？

Pika：我们的团队非常有优势，团队很多成员有对应的专业背景，他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是，我们有一部分成员之前的就是专业做这方面研究的，他们的论文也是这个领域的。基础模型上，我们既有资深的人，也有新生代有想法的人。所以这些方面的问题我们从人才上看，是非常有信心去攻克的。

至于可控性的具体思路，我们之前谈到的，去丰富和拓展更多元的交互方式，其实就是模拟人类思考的过程，这种方法也是增强可控性的有效手段。至于更细节的思路，可能今年年底之前，我们会有一个产品出来，在用户交互界面上有一个比较大的升级，到那个时候我们可以全部公布。

将更aggressive做视频大模型

机器之心：去年年底的时候你们立过一个flag说，希望今年的技术能够达到一个商业上的标准，这个标准是什么？进度如何？

Pika：我觉得这个领域很显然还有很多东西是没有定义的。就是说，未来AI到底是怎么样？用户到底该怎么跟AI模型做交互，交互方式其实都还是待定义的。我们希望自己可以去参与定义这个商业板块，希望我们能在今年取得进展。

这个标准我认为可能也不仅仅是技术上的标准，不仅仅是说这个模型生成的分辨率有多高或者说效果有多好，最终还是要回到用户的可用性有多强。

机器之心：对于产品力，你们怎么构建它？

Pika：我们是想做最好的模型，但是不仅仅是做视频模型，而是想做最有用的视频模型，这个就是我们所认为的产品力。

我们不仅是要做一个技术载体，比如技术极客之类的会感兴趣，更重要的是做一个有用的视频模型，不一定是技术上最强势，但是给到创作者，你能够去编辑视频、定义场景和人物，不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户能够真正意义上去控制这个视频的生成和编辑。

机器之心：那现阶段来看的话，像模型能力的提升和产品力的提升，对你们来说这两件事哪件是更重要的？

Pika：模型是产品的基石，我们对界面的定义也是需要基于一个成功的模型，所以我觉得可能模型研发目前是稍微更重要的一点的。

机器之心：在模型层面的提升上，哪些性能是最关注的？

Pika：还是回到那三点，准确性、可控性以及效率。

机器之心：时长会是一个重点吗？

Pika：会是一个重点，在我们下一个新版本中，我们会做提升，但提升多少，我们现在还无法公布。

机器之心：我看到你们说，自己会更aggressive地去做模型层面的研究和工程，这具体会表现在？

Pika：第一就是加大力度的招人，另外就是现在的团队会往这方面倾注更多的精力。

机器之心：目前商业化上的探索情况是怎样的？

Pika：我们现在是已经在赚钱的，主要来自C端的订阅费用，在B端，我们会跟一些演唱会或者企业在创意上做合作，也会对外提供API，目前都在探索的路上。

More：

AI Pioneers 系列人物专访（点击跳转）：杨植麟｜唐家渝｜梅涛｜王长虎｜夏立雪 | 高继扬

联系作者：jjingl- （添加请注明姓名-公司-职位）

ChatGPT 谷歌 OpenAI 产业创始人人工智能 AGI 性能 GPT 算力大模型 AI 训练模型

声明：本文转载自机器之心，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(314) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。