斯坦福等机构成功训练s1模型：仅用150元，26分钟实现性能突破

时间：2025-02-07 21:00

小编：小世评选

在人工智能研究领域，模型的训练成本与效率一直以来都是迫切关注的话题。传统上，高昂的计算资源需求与漫长的训练周期，使得许多研究者在推进人工智能模型的发展时面临重重困难。最近由斯坦福大学、华盛顿大学及艾伦人工智能实验室等机构联合实施的一项研究，成功打破了这一常规思维，展现了在低成本高效训练方面的巨大潜力。在李飞飞教授的带领下，该团队仅用不到150元的费用和26分钟的时间，便成功训练出了一个性能匹敌DeepSeek-R1和OpenAI o1的推理模型——s1。

低成本训练的奇迹：s1模型的诞生

s1模型的训练过程堪称奇迹。团队在训练时仅使用了16个英伟达H100显卡，整个训练过程的云计算成本不到50美元（约合人民币364.61元）。这一成果的出现让人难以置信。根据市场现状，类似的计算资源租赁成本仅需约20美元（约合人民币145.84元）。如此低的成本投入，便能够训练出高性能的模型，这在过去是难以想象的。

这项成果的背后，得益于团队在模型蒸馏技术上的创新应用。s1模型的核心是基于阿里通义团队开发的Qwen2.5-32B-Instruct模型，通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版，最终获得s1模型。这种蒸馏方法有效减少了训练成本，还同时提升了模型的推理能力。

目前，s1模型的论文《s1: Simple test-time scaling》已正式发表在arXiv上，相关的模型代码和训练数据也在GitHub上进行开源共享，为全球研究者提供了宝贵的资源和参考。

精心设计的数据集：s1K的构建

s1模型的成功，离不开创新和严谨的数据集设计——s1K。s1K数据集的构建历程显示了团队对数据质量的重视。团队从多个来源收集了59029个问题，并经过去重、去噪、质量筛选、难度评估及多样性审查，最终筛选出1000个涵盖广泛数学领域的高质量样本。这些样本不仅包括详细答案，还附带Gemini 2.0 Flash Thinking实验版的推理过程，为模型训练提供了丰富而全面的数据支持。

这种对数据质量的把控，为后续模型的训练奠定了坚实的基础，同时也为其他研究者在数据集设计上提供了很好的借鉴示范。

Test-time Scaling的探索与创新

s1项目团队还致力于研究一种简单且有效的Test-time Scaling方法。简单Test-time Scaling是指在推理阶段通过增加计算资源或时间来提升大模型的性能。这一思路出现在预训练Scaling Law遭遇瓶颈时。虽然OpenAI尚未公开其具体实现，但这激发了s1团队的深入研究兴趣。

在这个过程中，团队提出了顺序Scaling和并行Scaling两种方法。顺序Scaling为晚期计算依赖早期成果，而并行Scaling则让每个计算独立进行。团队选择顺序Scaling，因为他们认为这种方法更容易充分利用中间结果，进行深度推理与迭代优化。

基于顺序Scaling，研究小组还提出了budget forcing的方法，此方法通过设定模型的思考token数量，控制模型的推理过程。具体而言，团队通过添加“end-of-thinking token分隔符”和“Final Answer”，在最大和/或最小思考token数量上施加约束，以促进模型提供当前最佳答案。

s1模型的性能表现与研究发现

s1模型的性能表现十分突出。在众多推理基准测试中，s1-32B模型与多种顶尖推理模型进行了对比，评测内容涵盖2024年美国数学邀请考试（AIME24）的30个问题、不同难度的竞赛数学问题基准（MATH500），以及生物、化学和物理领域的198个博士级问题（GPQA Diamond）。评测结果显示，s1-32B在MATH500上取得了93.0的高分，毫问地超越了OpenAI o1-mini，接近于o1与DeepSeek-R1。

研究团队还注意到，过于频繁地抑制思考结束标记分隔符可能会导致模型出现思维循环，而非继续推理，这一发现为后续模型优化提供了重要参考。s1-32B仅基于1000个样本的训练就取得了接近Gemini 2.0 Thinking的成绩，显示了s1模型的极高样本效率。

模型蒸馏技术的魅力与未来展望

s1模型的成功，再次展示了模型蒸馏技术的强大潜力。模型蒸馏实现了将大型模型的知识迁移至小型模型中，不仅有效降低了训练成本，还显著提升了模型推理能力。未来，随着这种技术的不断发展与完善，预计将有更多高效且低成本的模型涌现，为人工智能的发展注入新的活力和动力。

斯坦福大学等机构成功训练的s1模型展示了人工智能领域低成本高效模型训练的全新可能。通过技术创新、数据矩阵优化和模型蒸馏，这一进展将为未来相关研究开辟新的道路。

斯坦福等机构成功训练s1模型：仅用150元，26分钟实现性能突破

精品推荐

相关文章