让英伟达、谷歌出手的世界模型到底有何魅力？

作者：

文少

责任编辑：

刘沙

来源：

电脑商情在线

时间：

2025-01-08 17:20

关键字：

英伟达谷歌世界模型 AI

　　随着人工智能技术的飞速发展，世界模型（World Models）正逐渐成为AI领域的下一个关键突破点。

　　英伟达的Cosmos世界模型

　　1月7日，在2025年CES上，英伟达宣布推出Cosmos世界模型（Cosmos World Foundation Models，简称Cosmos WFMs），专为理解物理世界打造，可预测和生成“物理感知”的视频，旨在加速自动驾驶汽车、机器人等物理AI系统开发。

　　据介绍，Cosmos WFMs经过了9000万亿个token的训练，数据来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。该模型可以生成照片般逼真的视频，用于训练机器人和自动驾驶汽车，而且成本比使用传统数据低得多。

　　该模型分为三类：Nano（适用于低延迟和实时应用）、Super（高性能基线模型）和Ultra（最高质量和保真度输出）。这些模型的参数规模从40亿到140亿不等，Nano最小，Ultra最大。

　　目前，Waabi、Wayve、Fortellix和Uber等多家企业，已经承诺在各种用例中试用Cosmos WFM，从视频搜索和策划到为自动驾驶汽车构建AI模型。

　　谷歌DeepMind的Genie世界模型

　　谷歌DeepMind也在积极布局世界模型领域。DeepMind组建了一个专门的世界模型研究团队，由前OpenAI研究员Tim Brooks领导。该团队致力于开发可以模拟物理世界的人工智能模型，并计划将模型扩展到“最高水平的计算”。

　　Brooks表示，世界模型将为许多领域提供动力，如视觉推理和模拟、具体化代理的规划以及实时互动娱乐。

　　DeepMind在去年12月发布的Genie模型能够模拟虚拟世界以及逼真的动画和物理效果，并支持所有这些元素之间的交互。例如，用户可以使用Genie创建各种示例世界，包括航海模拟、赛博朋克西部片等，还可以使用文本、图像或两者的组合来提示Genie。

　　事实上，除了英伟达，谷歌DeepMind，还有不少初创企业也在涉足世界模型，如World Labs已筹集2.3亿美元用于构建“大世界模型”，还有Decart、Odyssey等等。

　　什么是世界模型？

　　那么，到底什么是世界模型？

　　世界模型通过大量图像、音频、视频和文本数据的训练，创建对世界运作方式的内部表征，并能推理行为的后果。这一技术不仅在生成式视频领域展现出巨大潜力，还在复杂推理预测和规划方面具有重要意义。

　　应用前景

　　世界模型的核心在于其能够模拟人类的潜意识推理能力，帮助机器更好地理解和模拟现实世界的规律。这种能力在多个领域具有广泛的应用前景：

　　影视和游戏行业：世界模型可以按需生成用于游戏、虚拟摄影等用途的3D世界，大大降低开发成本和时间。例如，创作者不需要为每个物体定义预期的运动方式，模型本身就能理解这些。

　　自动驾驶和机器人技术：通过增强机器人对周围环境和自身的感知能力，世界模型可以帮助它们更好地理解所处情境并推理可能的解决方案。这对于提高自动驾驶汽车的安全性和机器人的灵活性至关重要。

　　复杂预测和规划：世界模型可以用于数字和物理领域的复杂预测和规划。例如，给定一个脏乱的房间（初始状态）和一个整洁的房间（目标状态），世界模型可以推理出一系列清洁行动。

　　面临的挑战

　　尽管世界模型展现出巨大的潜力，但其发展仍面临诸多挑战：

　　巨大的计算需求：训练和运行世界模型，需要比当前生成模型更多的计算能力。这不仅对硬件提出了更高的要求，也对能源消耗和成本控制带来了挑战。

　　幻觉和偏见问题：世界模型也会产生幻觉并内化训练数据中的偏见，这可能导致模型在某些情况下做出错误的预测或决策。

　　训练数据限制：缺乏足够广泛而又具体的训练数据可能会加剧上述问题，如何获取高质量、多样化的数据成为一个重要课题。

　　复杂行为模拟：目前的模型难以准确捕捉世界居民（如人类和动物）的行为，如何更好地模拟这些复杂行为将是未来研究的重点。

　　不过，可以预见，如果未来这些挑战能够被逐步克服，那么世界模型将为更多行业带来更高效、更智能的解决方案，推动社会进一步发展。

精彩专题