Sora之后，视频生成公司如何生存？| 对话魔珐创始人柴金祥

文｜郝鑫

爆火于元宇宙，转而销声匿迹，又在大模型来临后死灰复燃，眼看着一波波创业公司倒在黎明前，一波波新生力量又在风口爆发后崛起，风险与机会齐飞。

想要在曲折而不确定性的虚拟人赛道找寻发展的确定性，通过虚拟人来穿越技术和经济的发展周期成为一件极其困难的事情。

魔珐科技，这家从元宇宙开始到现在始终坚持3D虚拟人方向的公司，用每个阶段不同的技术探索以及对虚拟人的认知更新来回答“如何穿越周期”这个问题。

不管行业如何变化，自成立至今，魔珐一直在探索3D虚拟人的生成路径。

2018年成立初期，魔珐将构建元宇宙的基础设施为核心目标，并提出了“虚拟+X”的概念，掌握了全栈式的虚拟内容智能化制作技术，打造了虚拟直播和线下实时互动产品以及三维AI虚拟人能力平台。

2023年，大模型和AIGC技术让虚拟人实现突破，魔珐重新定义AIGC时代的虚拟人，并发布了虚拟人直播 AIGC 平台 “ 魔珐有光”、虚拟人视频 AIGC 平台 “ 魔珐有言 ”和虚拟人服务 AIGC 平台 “ 魔珐有灵 ”，三款超写实 3D 虚拟人产品。

Sora之后，视频生成公司如何生存？| 对话魔珐创始人柴金祥

魔珐CEO柴金祥表示：“3D虚拟人具有高质量超写实形象，能表达，可互动，且是AIGC生成的”，要同时具备超写实3D形象、生动的表达能力和垂直领域的专业能力。

从更宏观的角度，柴金祥认为，“文生文、文生图、文生视频都只不过是AIGC的能力，而AIGC演进的终极形态一定是3D虚拟人。”

2024年开年，Sora炸翻了天，令国内的创业公司和投资人感到震惊和恐慌。在这样的背景下，手握3D虚拟人AIGC视频生成平台且已经开始产品化的魔珐，显得格外冷静。

柴金祥认为，Sora的路线不一定适合中国企业，Sora走2D视频生成路线，更适合创意类视频生成；魔珐选择走3D视频生成路线，满足企业对信息复杂度、精准性输出的需求。

回顾魔珐的发展，其核心能力是在3D虚拟人的核心能力上做加法，以前是3D虚拟人+元宇宙，现在是3D虚拟人AIGC+图文、视频，再加电商直播、教育、文旅等千行百业。变的是整个时代发展脉络，不变的是核心技术能力和产品能力。

在与行业结合的过程中，柴金祥形成了自己对科技公司商业化的思考。他认为，对魔珐在内的所有科技企业来说最重要的还是PMF（Product Market Fit 产品市场匹配度），即能不能找到更契合市场的产品，多长时间能得到验证。此外就是，在这款产品的增长过程中，能不能实现规模化。

柴金祥介绍，魔珐从早期做项目再到产品化就是在不断寻找规模化的突破点，“现在3D虚拟人视频生成产品的成本基本是GPU的成本”，如果有一天达到了PMF，后面的任务就是持续保持用户增长。

带着这样的视角，光锥智能对话魔珐创始人兼CEO柴金祥，深入理解魔珐穿越技术周期的思路以及对虚拟人产品化的实践。

核心观点如下：

1、文生视频存在两条路径：一条是Sora，用大规模视频数据训练大模型，生成2D视频内容；一条是3D内容的AIGC，通过3D物理引擎渲染生成视频。

2、魔珐要做的是3D超写实虚拟AIGC+X，每家企业都能有一个AIGC 3D虚拟人，这个虚拟人有形象、会表达且够专业。

3、3D视频生成的核心难点是缺乏高质量的3D数据，其次才是算力、算法。

4、对科技企业来说最重要的还是PMF（Product Market Fit 产品市场匹配度），即能不能找到更契合市场的产品，多长时间能得到验证。

5、在OpenAI的延长线上的公司都很危险，Sora更适合创意类视频生成。

以下为对话实录：

Q：Sora的爆火点燃了 AI 视频赛道的战火，Sora就是最佳路径吗？魔珐选择的是哪条技术路径？

A：文生图片、文生视频、文生3D从视频的AIGC角度来说，有两条核心路径：一条路径就是最近比较火的Sora路径，它生成的是2D视频，从互联网上获取大量的视频数据来训练大模型，然后输出生成视频。像Pika、Runway这些美国公司以前都是走同一个路径，只是效果做得相对较差，中国现在想完全照搬也不一定能学成。

还有一条路径，就是3D内容的AIGC，这也是魔珐现在选择的道路。无论国内外，三维内容AIGC大家多多少少都有听过，但是没见过产品，也没见过好的Demo，导致对3D内容的AIGC其实缺乏一定的概念。

Q：什么是3D虚拟人AIGC产品？

A：我们定义里的3D虚拟人，我自己认为它是一种最高级的内容形态。意思是说，通过虚拟人可以复制无穷个自己，从而打破时间、空间的限制，也能和任意的节点产生联系和互动，达到一种随时在线的状态。我们认为它是比图文、比视频更高级的形态，因为它是把所有东西都结合起来，本质上是一个智能体。

Sora之后，视频生成公司如何生存？| 对话魔珐创始人柴金祥

我们的AIGC体现在哪里？视频里人物的所有表达都是AIGC生成的，包括他的表情、眼神、手势、动作、声音等等。现在，AIGC的功能体现是文本脚本生成，我们3月底的下一个版本，大家会看到把我们自己的大模型、文本大模型结合进去，用户直接输入prompt 就能完成操作。

Q：虚拟人赛道的厂商和企业众多，魔珐如何定位自身，差异性体现在哪里？

A：魔珐要做的是3D超写实虚拟AIGC+X，从我们的愿景来讲，希望每家企业都能有一个AIGC 3D虚拟人，这个虚拟人有形象、会表达且够专业。视频就是“+”的一种方式，直播也是“＋”，一对一互动也是“＋”，各个行业也是“＋”。3D 虚拟人不是个单体，比如做视频，不能只有 3D 虚拟人，要做综合性的产品，做直播的时候也不能只有个虚拟人，做一对一交互的时候也是，核心就是通过产品去赋能千行百业。

值得一提的是，大概在半年以后，我们可能把3D超写实虚拟人AIGC全栈能力开放出去，打造一个像 ChatGPT一样的开放平台，无论C端还是B端用户，都可以通过调用API，来使用魔珐的技术能力。

我们把魔珐定位为一家产品驱动的公司，思考和做抉择都围绕着：技术有没有用，能不能落地到产品中，产品能不能给用户和客户带来价值等几个关键性问题。

Q：您觉得3D视频生成的难点有哪些？魔珐有哪些能力是Sora所不具备的？

A：最核心的难点是缺乏高质量的3D数据。虽然理论上讲文生图、文生视频的训练数据可以从网上获得，但这跟3D训练数据根本不是一回事儿，即使是国内外的动画公司和游戏公司所训练的3D内容数据质量也是非常差的。解决了3D数据来源的问题，才能在这基础上拼算法和算力。

魔珐3D的AIGC产品能覆盖到Sora不能涉及的场景。Sora现在所能呈现的视频基本上全是创意类的视频，当用户想去生成内容信息密度高、又要求精准表达的视频时，它是无法做到的，比如知识分享、发布会、教育培训类的场景。而我们所针对的恰恰是这类场景，在这里面，我们希望能做到准确传递信息、精准控制内容生成、内容可控和可编辑。

Sora之后，视频生成公司如何生存？| 对话魔珐创始人柴金祥

Q:针对3D数据匮乏这个难点，魔珐是怎么解决这个问题的？

A：在过去五六年，我们一直在坚持两件事情，一是底层根技术的提升，以前PGC时代，你可能要找十个人，干几个月才能做一个3D虚拟人，或者找两三个人做几周，才能完成场景的搭建，但现在可能几分钟就能实现。

二是3D美术质量的提升，大家可以看我们虚拟人整体的质量，包括场景、人物、美术，整个都在不断地提升。同时我们也在服务B端企业的过程中，做了很多数据的沉淀，这个数据不是说我今天一下子做的，而是在过去五六年过程中不停地积累。

Q：对于科技公司而言，前期投入成本很大，在虚拟人这个行业同样存在这个问题，魔珐是如何理解盈利问题的？

A：对魔珐在内的所有科技企业来说最重要的还是PMF，即能不能找到更契合市场的产品，多长时间能得到验证。此外就是，在这款产品的增长过程中，能不能实现规模化。

科技跟其他所有公司属性不一样的点就是爆发力，一家科技公司的壁垒应该很高，假如找到了市场契合的产品，后面应该得以爆发。但是不幸的是，我们看过去十年的AI公司，即使上市也存在持续亏损的状态，原因在于其没有找到一款爆发性的产品，所以没有看到它在某一个点，实现指数性的增长。但在产品行业，爆发性增长的例子比比皆是，在国外，不一定非得是AI，ChatGPT、Canva、Figma 都是在产品和市场匹配后，实现了快速的增长。

魔珐的早期一直在做项目，这意味着在某一点很难去规模化，这就是为什么从两年前开始，下定决心要做产品化。像我们现在的这款产品，所有的成本都是GPU的成本，C端也好，B端也好，不管有多少用户，对我们成本都是一样的。如果有一天我们达到了PMF，后面要做的事就是保持用户增长即可。

Q：元宇宙时期虚拟人的造价成本非常高昂，随着AIGC技术的落地，虚拟人成本降低了多少？

A：最早时候，企业定制形象成交价在60万以上，落实到我们自己成本也要几十万。而现在，你能看到的企业的形象定制化虚拟人，成本已经降至很低的价格。再往后，发展到今年的6、7月份，当普通用户都能用AIGC生成图片、捏脸时，我们的成本基本趋近于零。

在整个过程中，技术的进步使得内容生产变得越来越简单，将经历PGC、UGC再到AIGC的发展曲线。无论是文本、图片、视频还是3D，AI的价值就在于使内容制作门槛越来越低，企业成本越来越低，内容生成质量越来越好。

Q：您提到3D虚拟人终点是一个智能体，需要把最好的经验去复制。那魔珐是怎么实现各个行业的结合和复制的？

A：虚拟人要有形象、会表达、有技能，当把虚拟人定义成一个赚钱工具时，企业在意的是ROI和转化率。想要效果好，就需要最佳实践。

Sora之后，视频生成公司如何生存？| 对话魔珐创始人柴金祥

以电商直播场景为例，我们虚拟人训练的所有声音、动作都找了演员去模拟。AI的方式就是复制最优秀的，这里面包括了主播的声音、表达方式、话术。要是深入研究，你就会发现，主播大促，淘宝和抖音不同平台以及不同品类的话术表达都是不同的，讲品过程逻辑也是不同的。所以看似ChatGPT 也能做同样的事情，但要和具体产业结合仍然需要很长的时间。

Q：Sora的升温也让国内视频生成赛道的初创企业受到了关注，您如何看待未来的竞争格局？

A：从路径上分化，就是刚才提到的以Sora为代表的2D视频生成路线，和魔珐选择的3D视频生成路线。

一个很残酷的事实是，在OpenAI的延长线上的公司都很危险。你可以去问一些投资人，在年前Sora还没出来的时候，尽管一些创业公司还在demo阶段，投资人可能已经有意向去投资，甚至部分协议都签完了。但是，Sora一出来就全部不投了。这个事已经证明，创业公司但凡在OpenAI的延长线上，都可能会面临被颠覆的命运，现在的Pika、Runway在市场竞争处境也变得很艰难。

目前Sora产品没有公开，且不可编辑、时长也有限制，未来它也可以弥补这些不足。但到底技术迭代发展的曲线是陡峭还是平缓？还是不确定的，你今天说他很陡峭，难道他一直会很陡峭吗？Sora这条路，我认为如果做出来，更适合创意类视频生成。

本文来自投稿，不代表增长黑客立场，如若转载，请注明出处：https://www.growthhk.cn/cgo/115054.html