李飞飞看中的万亿赛道

文章作者：haosf999传奇发布网站发布时间：2025-03-05 09:36:08

　　中国首个全自研空间智能AI诞生了，单图即可生成360度无限3D场景，实时互动自由探索。这不仅是技术的革新，更预示着，游戏电影等领域即将迎来颠覆性的变革。

　　MtrxZro世界模型包含两款子模型：昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。包括两部分功能：

　　至此，昆仑万维正式成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。

　　李飞飞躬身入局，仅3个月就估值10亿的Wor L令业内恍然大悟：AI教母瞄准的，就是能进行推理的空间智能！

　　诚如英伟达高级计算机科学家J F所言，「空间智能，是计算机视觉和实体智能体的下一个前沿」。

　　比如市面上的一些2D图像或视频生成工具，仍然受制于像素空间和3D空间的差异，生成结果往往不一致、物理不合理。

　　而TrpoAI、My等3D工具，则更关注单个物体的生成，因而无法生成完整、合理的3D场景。

　　即使已经走在前面的WorL，也存在不少限制。比如在探索空间上的不足，就会极大地影响游戏制作和视频渲染。

　　首先，它支持将用户输入的图片，转化为可自由探索的线D场景，同时极大避免了一些视频模型或自回归方法中极易出现的前后不一致现象。

　　那么如何从3D场景渲染出视频的呢？正如下图所示，在3D场景中放置一个摄像机（橘红色线框所示），并指定其运动控制。

　　这样，不仅视频内容非常符合用户意图，还能拓展在虚拟环境、交互式应用和沉浸式体验中的应用场景，可以用在3D游戏场景中快速可控建模，以及在具身智能中快速搭建模拟场景。

　　另外，MtrxZro可以支持在场景中进行任意方向长距离、大范围的探索，这就为电影、短剧场景镜头生成，提供更多可能。

　　在这些场景中，你可以先环视再前进、前进后右转、360度俯视、180度回头等等，各种操作只有你想不到，没有它做不到。

　　MtrxZro还支持风格迁移，我们可以把一张写实图片转化为卡通风格，或者干脆把房屋变为红瓦白墙。

　　无论是光照、海浪、云雾、水流，动态都极度符合真实世界的物理规律，因而可以由之构建真正的世界模型。

　　前者能借助可微渲染和扩散模型技术，创造出和输入图片一致的3D场景布局；后者则是在图片生成模型和视频生成模型基础上训练的，能实现符合场景布局的纹理材质生成。

　　而用户在场景中运动时，3D场景生成大模型就会不断对场景缺失区域进行几何和纹理的补全，因此用户无论在任何位置、任何角度，都能看到合理、一致的场景。

　　好比这张街景图生成的视频画面，你可以前后左右移动，随心所欲地调整视角，就像在真实世界中探索一样。

　　团队的方法建立在自研的生成式视频模型之上，依托大规模开放数据的预训练模型，同时结合了自主研发的用户输入交互模型。

　　这就保证了在开放视频领域生成能力的同时，进一步增强了对视频内容中视角移动的精确控制，从而更符合用户的交互需求和预期。

　　元帅负责根据初始视频帧生成连贯的视频内容，军师则负责解析用户输入信息，转化为视频调整信号。这样，MtrxZro就既能生成清晰、稳定、有逻辑的视频，还能准确响应，让交互更直观流畅。

　　通过基于Trorr架构的扩散模型，增强视频序列的时序依赖性和帧间连贯性，有效避免画面跳跃问题。

　　总之，以上特性让MtrxZro真正成为一款足够实用性的产品，在电影、短剧、游戏、具身智能等领域有广泛的应用空间。

　　影视剧从业者，则可以轻松生成电影/短剧中的镜头。为了一个镜头动辄烧上百万甚至上千万美元经费的情况，从此可以彻底告别。

　　阿凡达：水之道是史上经费最高的电影之一，整部电影的预算为46亿美元左右，但单个VFX的成本可能就达到每秒数百万美元

　　由此显露的产品领先性也体现出，昆仑万维在科研、产品、应用上具备足够的前瞻性，已经形成了闭环的产业链。

　　在「AI教母」李飞飞看来，空间智能不仅仅是让AI看见世界，还要让AI理解三维世界，并具备与之互动的能力。

　　这种一维表示在处理语言方面得心应手，但当处理图像、视频等其他模态数据时，本质上不过是将多维信息「压缩」进一维序列中，就不会可避免地造成信息损失。

　　NurIPS 2024上，李飞飞提到最领先的多模态模型在HourVo基准上依旧与人类有很大差距

　　举个栗子，当前AI生成的视频中，在涉及物体/人物大幅度移动变化的情景下，往往难以保持一致性。

　　我们还需要做的是，在大模型训练过程中，还需要将3D世界的几何和物理规则系统植入，从而让AI拥有对这个世界的推理、理解、生成能力。

　　除了李飞飞Wor L、谷歌G 2，在国内，一些团队也做了类似的研究，比如中科院等团队的SX、智源研究院的S3D等等。

　　从生成的视频中不难看出，MtrxZro自由探索的范围任意大，任意广。而且，可以直接交互输出视频，在稳定一致性方面做到业界领先。

　　两年后，AIGC全系列算法与模型「昆仑天工」首次亮相，其能力覆盖了图像、音乐、文本等多模态内容的生成能力。

　　多模态大模型SyworMM在MME基准中，10拿下了综合排名第一的成绩。他们还开源了百亿级大语言模型天工Sywor13。

　　到了2024年2月，基座大模型迎来了最大升级，采用MoE架构「天工20」在处理复杂任务更强、响应速度更快、训练推理效率更高。

　　紧接着4月，「天工30」震撼发布，采用4000亿参数MoE架构，性能较上一代飞升，数学代码飙升超30%。

　　今年1月，天工大模型40 o1版/4o版正式上线天工网页端和APP，免费无限用，性能直接对标OpAI。

　　截至目前，昆仑万维已自研出「五大模型」体系：文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。

　　2023年，昆仑万维曾立下豪言壮志：A AGI和AIGC，并将其作为未来十年的战略方向。

　　首先是多模态融合进一步深化，未来的模型将不再满足于简单多模态并列，而是要实现真正模态间的深度理解和转换。

　　比如，模型不仅要「看懂」一段视频，还要能准确理解视频中运动规律，并将这种理解应用到其他场景中。

　　其次，新一代模型架构需要能够同时整合空间、时间、物理等多维度信息，这种整合不是简单的叠加，而是要在更深层次上实现知识互通和迁移。

　　在教育领域，它可以创造沉浸式学习体验，让抽象的知识变得直观可感；在工业领域，它能更精准控制机器人和自动化生产；在创意领域，它甚至可以革新内容创作的方式，带来前所未有的视觉体验。

　　在这场AI进化的马拉松中，昆仑万维展现出了罕见的战略定力和技术魄力。据悉，MtrxZro世界模型将于4月份上线。

　　从ALL AGI的宏大愿景，到空间智能的前瞻布局，这家公司正用实际行动诠释着技术创新的深层内涵。

上一篇：李飞飞巴黎演讲：揭示

下一篇：《我的世界大电影》冒