李飞飞团队仅用50美元训练出AI模型，技术突破还是噱头？

时间：2025-02-07 20:30

小编：小世评选

近日，李飞飞团队的一个研究成果引发了业内的广泛关注，声称他们以不到50美元的成本训练出一个媲美DeepSeek R1的AI模型。这一消息让人兴奋，但我们很有必要从多个角度深入探讨这一成果究竟是技术上的突破，还是换汤不换药的噱头。

一、技术路径

根据斯坦福大学与华盛顿大学联合团队的研究论文，名为s1的推理模型是通过创新的技术路径训练而成。团队利用云服务，只消耗了约20-50美元的费用，便成功租用了16块NVIDIA H100 GPU，为模型训练提供了所需算力。模型训练过程中，他们从5.9万个问题中筛选出1000个高质量样本，涵盖了数学竞赛、科学难题等领域，并且遵循了“高难度、多样性、高质量”的原则。

在数据生成方面，研究人员还利用了谷歌的Gemini 2.0 Flash Thinking模型，生成问题的推理轨迹（reasoning traces）作为微调数据集。通过对模型推理时Token的生成量进行控制，他们能够优化模型的问答准确率。这种控制策略使得模型在回答问题时有更长的思考时间，有助于生成更准确的答案。

二、成本核算

尽管论文中声称仅用50美元的微调成本就得到了一个不错的模型表现，但是，如果将底层基座模型Qwen的开发费用计算在内，情况则截然不同。Qwen模型的研发费用高达数百万美元，这样一来，s1的“低成本”光环就不再亮丽。

容易引发争议的是，低成本是否真的能有效替代大企业所投入的巨额资金与算力？虽然s1通过高质量数据筛选与算法优化，显示出中小团队在AI研发中的潜力，但其在很大程度上还是受限于底层模型的表现。

三、性能对比

s1在测试中的表现确实是引人注目的，尤其在MATH和AIME24数学竞赛测试中，s1的表现超过了OpenAI o1-preview版本27%。与o1正式版及DeepSeek R1相比，其性能仍有不小的差距。DeepSeek R1在金融建模、多语言编程等复杂应用场景中显示出优势，而s1在特定的数学题型上则表现突出。

这就引发了行业内对于性能的质疑：s1是否只是一个局部的成功？虽然在某些方面展示了它的潜力，但在复杂任务的处理能力上，它却显得捉襟见肘。