免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > 斯坦福等机构成功训练s1模型:仅用150元,26分钟实现性能突破

斯坦福等机构成功训练s1模型:仅用150元,26分钟实现性能突破

时间:2025-02-07 21:00

小编:小世评选

在人工智能研究领域,模型的训练成本与效率一直以来都是迫切关注的话题。传统上,高昂的计算资源需求与漫长的训练周期,使得许多研究者在推进人工智能模型的发展时面临重重困难。最近由斯坦福大学、华盛顿大学及艾伦人工智能实验室等机构联合实施的一项研究,成功打破了这一常规思维,展现了在低成本高效训练方面的巨大潜力。在李飞飞教授的带领下,该团队仅用不到150元的费用和26分钟的时间,便成功训练出了一个性能匹敌DeepSeek-R1和OpenAI o1的推理模型——s1。

低成本训练的奇迹:s1模型的诞生

s1模型的训练过程堪称奇迹。团队在训练时仅使用了16个英伟达H100显卡,整个训练过程的云计算成本不到50美元(约合人民币364.61元)。这一成果的出现让人难以置信。根据市场现状,类似的计算资源租赁成本仅需约20美元(约合人民币145.84元)。如此低的成本投入,便能够训练出高性能的模型,这在过去是难以想象的。

这项成果的背后,得益于团队在模型蒸馏技术上的创新应用。s1模型的核心是基于阿里通义团队开发的Qwen2.5-32B-Instruct模型,通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版,最终获得s1模型。这种蒸馏方法有效减少了训练成本,还同时提升了模型的推理能力。

目前,s1模型的论文《s1: Simple test-time scaling》已正式发表在arXiv上,相关的模型代码和训练数据也在GitHub上进行开源共享,为全球研究者提供了宝贵的资源和参考。

精心设计的数据集:s1K的构建

s1模型的成功,离不开创新和严谨的数据集设计——s1K。s1K数据集的构建历程显示了团队对数据质量的重视。团队从多个来源收集了59029个问题,并经过去重、去噪、质量筛选、难度评估及多样性审查,最终筛选出1000个涵盖广泛数学领域的高质量样本。这些样本不仅包括详细答案,还附带Gemini 2.0 Flash Thinking实验版的推理过程,为模型训练提供了丰富而全面的数据支持。

这种对数据质量的把控,为后续模型的训练奠定了坚实的基础,同时也为其他研究者在数据集设计上提供了很好的借鉴示范。

Test-time Scaling的探索与创新

s1项目团队还致力于研究一种简单且有效的Test-time Scaling方法。简单Test-time Scaling是指在推理阶段通过增加计算资源或时间来提升大模型的性能。这一思路出现在预训练Scaling Law遭遇瓶颈时。虽然OpenAI尚未公开其具体实现,但这激发了s1团队的深入研究兴趣。

在这个过程中,团队提出了顺序Scaling和并行Scaling两种方法。顺序Scaling为晚期计算依赖早期成果,而并行Scaling则让每个计算独立进行。团队选择顺序Scaling,因为他们认为这种方法更容易充分利用中间结果,进行深度推理与迭代优化。

基于顺序Scaling,研究小组还提出了budget forcing的方法,此方法通过设定模型的思考token数量,控制模型的推理过程。具体而言,团队通过添加“end-of-thinking token分隔符”和“Final Answer”,在最大和/或最小思考token数量上施加约束,以促进模型提供当前最佳答案。

s1模型的性能表现与研究发现

s1模型的性能表现十分突出。在众多推理基准测试中,s1-32B模型与多种顶尖推理模型进行了对比,评测内容涵盖2024年美国数学邀请考试(AIME24)的30个问题、不同难度的竞赛数学问题基准(MATH500),以及生物、化学和物理领域的198个博士级问题(GPQA Diamond)。评测结果显示,s1-32B在MATH500上取得了93.0的高分,毫问地超越了OpenAI o1-mini,接近于o1与DeepSeek-R1。

研究团队还注意到,过于频繁地抑制思考结束标记分隔符可能会导致模型出现思维循环,而非继续推理,这一发现为后续模型优化提供了重要参考。s1-32B仅基于1000个样本的训练就取得了接近Gemini 2.0 Thinking的成绩,显示了s1模型的极高样本效率。

模型蒸馏技术的魅力与未来展望

s1模型的成功,再次展示了模型蒸馏技术的强大潜力。模型蒸馏实现了将大型模型的知识迁移至小型模型中,不仅有效降低了训练成本,还显著提升了模型推理能力。未来,随着这种技术的不断发展与完善,预计将有更多高效且低成本的模型涌现,为人工智能的发展注入新的活力和动力。

斯坦福大学等机构成功训练的s1模型展示了人工智能领域低成本高效模型训练的全新可能。通过技术创新、数据矩阵优化和模型蒸馏,这一进展将为未来相关研究开辟新的道路。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多