人工智能先驱李飞飞的世界实验室已筹集 23 亿美元用于构建“大型世界模型”,而DpM聘请了 OpAI 视频生成器的创始人之一 Sor 来开发“世界模拟器”。
世界模型的构建受到了人类自然形成的心理世界模型的深刻影响。我们的大脑能够将来自感官的抽象信息转化为对周遭环境更为具体的认知框架,这些框架我们称之为“模型”,而这一概念在人工智能领域采纳之前便已存在。基于这些模型所做的预测,我们的大脑进一步塑造了我们对世界的感知。人工智能研究者大卫·哈与尤尔根·施密特胡伯在其论文中,以棒球击球手为例进行了阐述。击球手在毫秒之间必须决定如何挥棒,这个时间甚至短于视觉信号传递至大脑所需的时间。他们能够击中时速高达100英里的快速球,原因在于他们能够本能地预判球的飞行轨迹。哈与施密特胡伯指出:“对于职业击球手而言,这一切都在潜意识层面迅速完成。”他们写道,“肌肉会在恰当的时间与位置本能地挥动球棒,与内心模型的预测不谋而合。他们能够依据对未来的预判迅速行动,而无需有意识地推演各种可能的未来场景来制定策略。”正是这些世界模型在潜意识层面的推理能力,被一些人视为实现人类级别智能的关键前提。
大多数,甚至所有,AI 生成的视频都进入了诡异谷的领域。观看它们足够长的时间,就会发生一些奇怪的事情,比如四肢扭曲并相互融合。
虽然经过多年视频训练的生成模型可能准确预测篮球会反弹,但它实际上并不知道原因——就像语言模型并不真正理解单词和短语背后的概念一样。但是,一个即使对篮球为何如此反弹有基本理解的世界模型,将更擅长展示篮球的这一行为。
为了实现这种洞察,世界模型在各种数据上进行训练,包括照片、音频、视频和文本,目的是创建对世界运作方式的内部表征,以及推理行动后果的能力飞飞发布站。
“观众期望他们所观看的世界与他们的现实以类似的方式运作,”马什拉博夫说。“如果一根羽毛以铁砧的重量下落,或者一个保龄球飞向数百英尺的高空,这会让人感到震惊,并使观众脱离当下。通过强大的世界模型,而不是让创作者定义每个物体的运动方式——这既繁琐又耗时,且效率低下——模型将会理解这一点。”
但更好的视频生成只是世界模型的冰山一角。包括 Mt 首席人工智能科学家 Y LCu 在内的研究人员表示,这些模型将来可能用于数字和物理领域的复杂预测和规划。
在一次演讲中,LCu 描述了世界模型如何通过推理帮助实现预期目标。一个具有“世界”基本表示的模型(例如,一个脏房间的视频),在给定一个目标(一个干净的房间)时,可以提出一系列行动来实现该目标(部署吸尘器清扫、洗碗、倒垃圾),这并不是因为它观察到的模式,而是因为它在更深层次上知道如何从脏到干净。
“我们需要能够理解世界的机器;[机器]能够记住事物,具有直觉和常识——能够像人类一样进行推理和规划的东西,”LCu 说。“尽管你可能听到了一些最热情的人所说的,当前的人工智能系统并不具备这些能力。”
尽管 LCu 估计我们距离他设想的世界模型至少还有十年的时间,但今天的世界模型作为基础物理模拟器显示出潜力。
OpAI 在博客中提到,Sor 被认为是一个世界模型,可以模拟像画家在画布上留下笔触的动作。像 Sor 这样的模型——以及 Sor 本身——也可以有效地模拟视频游戏。例如,Sor 可以渲染一个类似Mrt的用户界面和游戏世界。
未来的世界模型可能能够按需生成 3D 世界,用于游戏、虚拟摄影等,Wor L 的联合创始人贾斯廷·约翰逊在一集16 播客中表示。
“我们已经具备创建虚拟互动世界的能力,但这需要数亿美元的成本和大量的开发时间,”约翰逊说。“[世界模型]将让你不仅能获得一张图像或一个片段,而是一个完全模拟、充满活力且互动的 3D 世界。”
训练和运行世界模型需要巨大的计算能力,甚至比目前生成模型所使用的计算量还要大。虽然一些最新的语言模型可以在现代智能手机上运行,但 Sor(可以说是一个早期的世界模型)在训练和运行时需要数千个 GPU,特别是如果它们的使用变得普遍的话。
世界模型,像所有人工智能模型一样,也会幻觉——并内化其训练数据中的偏见。例如,一个主要基于欧洲城市阳光天气视频训练的世界模型,可能难以理解或描绘韩国城市的雪天情况,或者简单地错误地做到这一点。
“我们看到模型在某种类型或种族的人群中受到很大限制,”他说。“世界模型的训练数据必须足够广泛,以涵盖多样化的场景,但也必须高度具体,以便人工智能能够深入理解这些场景的细微差别。”
在最近的一篇帖子中,人工智能初创公司 Ruwy 的首席执行官 Crtó Vu 表示,数据和工程问题阻碍了今天的模型准确捕捉世界居民(例如人类和动物)的行为。“模型需要生成环境的一致地图,”他说,“以及在这些环境中导航和互动的能力。”
如果所有主要障碍都被克服,Mrov 相信,世界模型可以“更稳健地”将人工智能与现实世界连接起来——这将导致不仅在虚拟世界生成方面的突破,还包括机器人技术和人工智能决策。
今天的机器人在能力上受到限制,因为它们对周围的世界(或自己的身体)没有意识。马什拉博夫说,世界模型可以赋予它们这种意识——至少在某种程度上。
“有了先进的世界模型,人工智能可以对其所处的任何场景发展出个人理解,”他说,“并开始推理出可能的解决方案。”
上一篇:全新奇迹mu手游官网
下一篇:盘点2024年热门奇