加州大学实验室引入AI挑战《超级马力欧兄弟》表现:谷歌和OpenAI模型落后
时间:2025-03-14 13:50
小编:小世评选
近日,加利福尼亚大学圣地亚哥分校的Hao人工智能实验室开展了一项颇具创意的研究,旨在通过引入AI技术来测试经典游戏《超级马力欧兄弟》的操作表现。这项实验不仅让人重新审视AI在游戏领域中的能力,还揭示了现今一些被广泛赞誉的AI模型在实时反应方面的不足。
在这一研究中,实验室并未使用1985年首版的《超级马力欧兄弟》,而是通过一个模拟器运行该游戏。为了使AI能够对游戏角色马力欧进行控制,研究团队使用了一个自创的框架——GamingAgent。该框架旨在将游戏与AI连接起来,并给AI提供基本指令,指引其在遭遇障碍物或敌人时应如何反应。例如,当马力欧遇到危险时,AI可接收到相应提示,从而选择跳跃或向左移动来避免危险。GamingAgent还向AI提供实时的游戏截图,为其提供必要的视觉信息以做出反应。
实验的结果显示,在参与的AI模型中,Hao人工智能实验室研发的模型表现优于谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o。这一发现让不少人感到意外,尤其是后两者在其他的基准测试中通常显示出更强的性能。但在《超级马力欧兄弟》中,AI的反应速度显得尤为重要,研究人员指出,推理模型在实时游戏中的劣势正是由于其通常需要数秒钟来做出决策。而在马力欧的世界中,这种迟缓的反应可能会导致角色的失败,一秒钟的决策延迟可能意味着安全通过一段危险区域与坠落死亡之间的巨大差距。
“游戏一直是测量AI性能的金标准,但这仍然让人怀疑游戏在某种程度上能否体现真实世界的复杂性。”一些专家对此表示了关切。虽然游戏环境能够为AI模型提供广泛而理论上近乎无限的数据,以供训练和测试,但其相对简单和高度抽象的特点使得将AI在游戏中的表现直接与技术进步关联起来存在矛盾。
随着这一研究的深入,讨论的焦点逐渐转向了AI训练如何能够更好地适应复杂、非线性、快速变化的现实世界环境。这种高度规范化的实验虽然能帮助研究人员理解AI模型的能力边界,但也提示我们需对AI在不同应用场景中的表现持有更为审慎的态度。
值得注意的是,OpenAI的研究科学家安德烈·卡帕西(Andrej Karpathy)在社交媒体X上发文表示他对当前AI指针的混乱感到不安,并称之为“评估危机”。卡帕西表示,现他对AI模型的真正能力并没有清晰的认识,这反映出了在科技不断进步的背景下,如何恰当地评估AI性能成为亟需解决的问题。
在这场游戏与AI的挑战中,虽然AI在《超级马力欧兄弟》的表现不尽如人意,然而我们仍能从中体会到技术创新的乐趣。观看AI如何玩马力欧的过程本身便是一种引人入胜的体验,激发了我们对未来游戏与AI结合的期待。
本次加州大学实验室的研究不仅展示了AI在经典游戏中的表现,还促使我们对AI技术在真实场景中的应用能力进行更深层次的反思。在AI技术不断发展变化的今天,我们需要更为多样化的方式来衡量和评估这些技术,以更好地把它们融入到我们的生活中。希望未来能够看到AI在不同领域中展现更为优秀的表现,并能够更好地为人类服务。