让英伟达、谷歌出手的世界模型到底有何魅力?
文少
责任编辑:刘沙
电脑商情在线
时间:2025-01-08 17:20
英伟达 谷歌 世界模型 AI
随着人工智能技术的飞速发展,世界模型(World Models)正逐渐成为AI领域的下一个关键突破点。
英伟达的Cosmos世界模型
1月7日,在2025年CES上,英伟达宣布推出Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs),专为理解物理世界打造,可预测和生成“物理感知”的视频,旨在加速自动驾驶汽车、机器人等物理AI系统开发。
据介绍,Cosmos WFMs经过了9000万亿个token的训练,数据来自2000万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。该模型可以生成照片般逼真的视频,用于训练机器人和自动驾驶汽车,而且成本比使用传统数据低得多。
该模型分为三类:Nano(适用于低延迟和实时应用)、Super(高性能基线模型)和Ultra(最高质量和保真度输出)。这些模型的参数规模从40亿到140亿不等,Nano最小,Ultra最大。
目前,Waabi、Wayve、Fortellix和Uber等多家企业,已经承诺在各种用例中试用Cosmos WFM,从视频搜索和策划到为自动驾驶汽车构建AI模型。
谷歌DeepMind的Genie世界模型
谷歌DeepMind也在积极布局世界模型领域。DeepMind组建了一个专门的世界模型研究团队,由前OpenAI研究员Tim Brooks领导。该团队致力于开发可以模拟物理世界的人工智能模型,并计划将模型扩展到“最高水平的计算”。
Brooks表示,世界模型将为许多领域提供动力,如视觉推理和模拟、具体化代理的规划以及实时互动娱乐。
DeepMind在去年12月发布的Genie模型能够模拟虚拟世界以及逼真的动画和物理效果,并支持所有这些元素之间的交互。例如,用户可以使用Genie创建各种示例世界,包括航海模拟、赛博朋克西部片等,还可以使用文本、图像或两者的组合来提示Genie。
事实上,除了英伟达,谷歌DeepMind,还有不少初创企业也在涉足世界模型,如World Labs已筹集2.3亿美元用于构建“大世界模型”,还有Decart、Odyssey等等。
什么是世界模型?
那么,到底什么是世界模型?
世界模型通过大量图像、音频、视频和文本数据的训练,创建对世界运作方式的内部表征,并能推理行为的后果。这一技术不仅在生成式视频领域展现出巨大潜力,还在复杂推理预测和规划方面具有重要意义。
应用前景
世界模型的核心在于其能够模拟人类的潜意识推理能力,帮助机器更好地理解和模拟现实世界的规律。这种能力在多个领域具有广泛的应用前景:
影视和游戏行业:世界模型可以按需生成用于游戏、虚拟摄影等用途的3D世界,大大降低开发成本和时间。例如,创作者不需要为每个物体定义预期的运动方式,模型本身就能理解这些。
自动驾驶和机器人技术:通过增强机器人对周围环境和自身的感知能力,世界模型可以帮助它们更好地理解所处情境并推理可能的解决方案。这对于提高自动驾驶汽车的安全性和机器人的灵活性至关重要。
复杂预测和规划:世界模型可以用于数字和物理领域的复杂预测和规划。例如,给定一个脏乱的房间(初始状态)和一个整洁的房间(目标状态),世界模型可以推理出一系列清洁行动。
面临的挑战
尽管世界模型展现出巨大的潜力,但其发展仍面临诸多挑战:
巨大的计算需求:训练和运行世界模型,需要比当前生成模型更多的计算能力。这不仅对硬件提出了更高的要求,也对能源消耗和成本控制带来了挑战。
幻觉和偏见问题:世界模型也会产生幻觉并内化训练数据中的偏见,这可能导致模型在某些情况下做出错误的预测或决策。
训练数据限制:缺乏足够广泛而又具体的训练数据可能会加剧上述问题,如何获取高质量、多样化的数据成为一个重要课题。
复杂行为模拟:目前的模型难以准确捕捉世界居民(如人类和动物)的行为,如何更好地模拟这些复杂行为将是未来研究的重点。
不过,可以预见,如果未来这些挑战能够被逐步克服,那么世界模型将为更多行业带来更高效、更智能的解决方案,推动社会进一步发展。