英伟达亮相2025 CES 推出革命性“世界模型”AI技术 并发布RTX 5090 GPU
时间:2025-01-08 17:50
小编:小世评选
在2025年拉斯维加斯消费电子展(CES)上,英伟达首席执行官黄仁勋以全新形象闪亮登场,除了推出新一代显卡RTX 5090外,还正式进军当今AI领域的关键技术方向——“世界模型”。这一里程碑式的宣布引发了行业内的广泛关注,标志着英伟达在AI技术上的新探索。
世界模型的崭露头角
黄仁勋介绍了Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs),这是专为理解物理世界而设计的一种新型AI模型。Cosmos WFMs能够预测和生成基于“物理感知”的视频,而这一能力使得其在诸多实际应用中展现出巨大潜力。该模型共分三类,其中参数规模由40亿到140亿不等,分别为Nano、Mega和Ultra,针对不同的应用需求提供解决方案。
具体而言,英伟达还发布了上采样模型,并开发了专为增强现实优化的视频解码器。为了确保负责任的AI使用,英伟达还在其模型框架中加入了guardrail模型,这意味着在开发和应用这些技术时,行业标准和道德规范将得到重视。
科技巨头的追逐与合作
随着英伟达“世界模型”技术的发布,行业内的许多科技企业也纷纷加入到这一新兴领域的探索中。企业如Waabi、Wayve、Fortellix和Uber等均表示将试用Cosmos WFMs,应用于从视频搜索、策划到自动驾驶AI模型构建等多个用例。英伟达的战略不仅是通过其API和NGC目录向开发者开放这些模型,还旨在通过与GitHub和Hugging Face等的协作,推动AI开发的进一步普及与应用。
尽管如此,英伟达并未透露其训练数据的具体来源,这引发了关于版权和数据使用的争议。一些分析人士指出,这也是英伟达将这些模型称为“开放”而非“开源”的原因所在。
世界模型为何重要?
“世界模型”这一概念的基础来源于人类大脑的心智模型,即大脑通过感官输入的信息构建对外部世界的理解。这样的模型使得人类能够根据环境快速做出判断,例如棒球击球手如何瞬间判断挥棒的时机,正是依赖于对球轨迹的预测能力。
在生成式视频领域,世界模型展示出颠覆性的潜力。与传统生成模型相比,世界模型具备了基本的物理规律理解能力。而这种理解能力意味着它能更加真实地模拟物体的运动。例如,模型不仅能预测球的弹跳,还能明白其弹跳原因。这样的技术进步使得创作者在设计虚拟模型时,可以省去复杂的物理运动定义,让模型自主理解和运作。
机器人的未来与AI的融合
多位行业专家对世界模型在各个领域的应用进行了展望。Meta的首席AI科学家Yann LeCun不久前指出,未来的世界模型将能够处理数字和物理领域的复杂预测与规划。例如,在给定一个杂乱无章房间的初始状态与整洁房间的目标状态时,世界模型能够推理出实现清洁的有效步骤。
同样,AI教母李飞飞联合创办的World Labs已筹集了2.3亿美金,致力于开发“大世界模型”,这也是行业内一项重要的投资活动。OpenAI也在此领域开展了研究,推出了能够模拟各种环境的Sora模型,展现出对复杂虚拟世界重建的强大能力。
随着AI技术的不断进步,世界模型被看作是下一个关键突破。尽管实现成熟的“世界模型”仍需时日,但这一技术已经展示了其在虚拟世界生成、机器人技术及AI决策方面的巨大潜力。可预见的是,世界模型将来有望在多种应用场景中发挥重要作用,推动人工智能与现实世界的深度融合,创造出一种全新的应用体验。
训练和运行“世界模型”需要更为强大的计算资源,这是众多企业当前亟待解决的挑战。同时,模型的幻觉和偏见问题仍然存在,这就要求研究者们在开发模型时更加关注数据的多样性和准确性,确保生成内容的可靠性。
世界模型的问世,仿佛为AI行业的未来打开了一扇新的大门,尽管其中还存在诸多未知与挑战,但这一探索将促进AI技术的进一步发展,激发出更富有创意与创新的应用前景。