马斯克发布Grok3:算力超DeepSeek V3263倍 然而表现却饱受质疑
时间:2025-02-19 21:00
小编:小世评选
北京时间2月18日,特斯拉首席执行官马斯克与他的xAI团队在中正式发布了Grok的最新版本——Grok3。这一版本声称在算力上超越竞争对手DeepSeek V3达263倍,引发了全球媒体和科技界的广泛关注。马斯克通过社交媒体和活动不遗余力地宣传这一全新AI模型,期待它在数学、编程以及科学计算等多个领域带来突破性进展。
新发布的Grok3在多个基准测试中声称表现超越了市场上的主要AI模型,包括NLP标杆GPT-4,以及DeepSeek R1。马斯克甚至大胆预测,Grok3将用于未来的SpaceX火星任务,可能在三年内实现诺贝尔奖级别的突破。然而对于这样的言论,外界的实际反馈却显得几分冷淡。许多用户在实验中发现,Grok3并未如宣传所言,在简单基础问题上表现出色。
笔者在发布后对Grok3进行了一次简单的实测,询问了一个传统的逻辑问题:“9.11与9.9,哪个大?”出人意料的是,Grok3并未能准确解读这个问题并给出合理的答案。这一问题的“翻车”并非个例,许多用户也对Grok3进行了一系列的基础测试,例如“比萨斜塔上的两个球哪个先落下”,均发现Grok3同样无法给出正确的回答。这不仅引发了用户的困惑,也让人质疑其在日常应用中的可靠性,甚至有人戏称它为“天才不愿意回答简单问题”。
马斯克在中演示Grok3分析他所称经常玩的游戏《流放之路2》的职业与升华效果时,也频频遭遇错误答案,尽管马斯克处于状态之中,似乎并没有意识到Grok3给出的信息与实际情况严重不符。这样的失误不仅成为了用户调侃的笑柄,更给Grok3的实用性打上了问号。
在随后的讨论中,许多用户发现Grok3的表现与其实力之间存在明显差距。发布会上的官方数据声称Grok3在AI竞技场的表现“遥遥领先”,但深入分析后发现,这一展示手法存在“作图技巧”。例如,纵轴范围仅设定在1400到1300分的区间,使得Grok3与其它模型的得分差别显得异常显著。实际上,Grok3的得分比DeepSeek R1和GPT-4高出不过1-2%,与用户的实际体验相去甚远。
在面对庞大的算力投入时,包括20万张H100显卡和超过两亿小时的计算时间,这些巨大的资源投入在提升模型能力上的边际效用已经显露出疲态。虽说在模型训练中更强的算力通常意味着更优秀的表现,但这种“堆砌算力”的方式在Grok3的案例中显然遇到了瓶颈。
随着Grok3的推出,许多业内人士意识到AI模型的未来并不仅仅依靠提升参数规模或算力,而更需关注训练数据的质量与结构。一些研究者指出,类似OpenAI在推出GPT-4时所面临的问题——数据资源的紧缺,正在成为整个行业的共性问题。实际上,Grok3与阶段性数据质量不足所引发的“天花板”现象已经在它的性能反馈中显露。
马斯克对此表示,当前发布的版本只是测试版,未来将会有更完善的版本面世,这对Grok3的“完美形象”投下了阴影。尽管如此,他仍试图通过社交媒体鼓励用户给出反馈,似乎将自己转变为了一名产品经理。这种角色转换不禁引发了人们对其AI模型未来发展的猜测。
Grok3的出现并不意味着大模型时代的终结。OpenAI、DeepSeek等企业仍在努力通过扩增参数规模和提升算力来追求更优秀的模型。随着参数体积的飞涨,训练成本同样在飙升,如何在数据和算力之间找到平衡与突破,将是未来AI发展的关键。
在Grok3闹出的一系列乱子中,我们不得不思考:大规模预训练的AI模型是否已然走到了拐点?正如OpenAI前首席科学家Ilya Sutskever所言,当前预训练模型所依赖的大量数据已经接近枯竭,未来的AI系统需要具备更类似人脑的自主思维与学习能力。
若Grok3能够在其失败中反映出当下AI模型发展的局限性,它将为整个行业提供更重要的启示,指引后续的研究者探索出一条通向更智能、新型AI算法的道路。毕竟,过往依赖大量数据进行训练的日子,终将成为过去,而新的时代需要的是更具创新性的方法。