深度求索发布新一代开源模型DeepSeek-R1，性能媲美OpenAI o1

时间：2025-01-22 03:40

小编：小世评选

近日，深度求索（DeepSeek）再一次引起业界的广泛关注。1月20日，深度求索在其官方公众号上宣布推出新一代开源大模型——DeepSeek-R1。该模型的发布标志着深度求索在人工智能领域的又一次技术跃进，声称在多项任务的表现上与美国OpenAI的最新模型o1相当，甚至在部分领域的性能有所超越。

根据深度求索公开的数据，DeepSeek-R1在诸如算法类代码场景（Codeforces）和知识类测试（GPQA、MMLU）中的得分略逊于OpenAI的o1，但在工程类代码挑战（SWE-Bench Verified）及美国数学竞赛（AIME 2024, MATH）项目上，DeepSeek-R1则表现突出，实现了对OpenAI o1的完胜。这一结果表明，DeepSeek-R1在处理复杂问题时的能力得到了质的提升。

特别值得注意的是，与深度求索去年12月发布的DeepSeek-V3相比，DeepSeek-R1在AIME 2024和Codeforces中的得分提升接近一倍，其他测试项目亦显示出不同程度的增强。深度求索的这一成果显示了其在模型训练及优化方面的持续投入与技术积累。

为了促进模型的广泛应用，深度求索还对其用户协议进行了更新，统一采用标准的MIT开源许可证，允许用户利用DeepSeek-R1的输出结果、进行模型蒸馏等操作进行二次开发。根据深度求索公开的数据显示，在DeepSeek-R1基础上进行蒸馏的六个小模型中，其中的32B和70B模型在多项能力测试中表现与OpenAI的o1-mini相当。这样的开放策略为更多开发者及研究者提供了灵活的使用空间。

DeepSeek-R1在后训练阶段中大量引入了强化学习（RL）技术，极大提升了模型的推理能力，即使在非常有限的人工标注数据的情况下，亦能实现自我优化和能力提升。通常，强化学习的优势在于能够通过与外界反馈的互动，优化模型生成的内容，使之更符合人类的偏好。强化学习的成本虽高，但本文提到的监督微调（SFT）则高度依赖优质的标注数据，以确保生成内容的准确程度，这也是早期ChatGPT成功的关键要素之一。

在DeepSeek-R1的公开测试中，令人振奋的发现是，模型在学习过程中展现出了复杂的行为特征，如自我反思、评估以前的学习过程并自发寻找替代方案。这样的能力让人不禁想起哲学上的“尤里卡时刻”，即在面对某个难题时，突然产生的顿悟。

深度求索表示，在该模型的中间版本中，确实观察到了“尤里卡时刻”的出现。在处理某数学题时，DeepSeek-R1-Zero突然以拟人的方式进行自我反思，自主选择为问题分配更多的思考时间。这一现象表明，通过正确的激励机制，模型能够自主发展出先进的问题解决策略。深度求索因此认为，强化学习有潜力为人工智能的未来发展开启新的可能性，向更自主、更适应性强的智能模型迈进。

DeepSeek-R1-Zero的实验也揭示了语言生成过程中潜在的混乱和可读性问题。对此，深度求索采取了措施，通过引入数千条高质量的冷启动数据和多轮强化学习手段来改进模型，最终获得了现已正式发布的DeepSeek-R1大模型。

在商业应用方面，DeepSeek-R1的API服务定价为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元。这样的定价策略使得人工智能技术的使用门槛进一步降低，方便各行各业的开发者及企业。

DeepSeek-R1的发布为人工智能开源模型的生态注入了新的活力。随着DeepSeek不断推进技术创新与优化，未来值得期待的将是更多功能强大的模型涌现，推动产业的全面升级与转型。随着开放合作的深入，DeepSeek的影响力将愈加深远，在不久的将来，我们能看到更多AI技术在实际应用中发挥出更大作用。

深度求索发布新一代开源模型DeepSeek-R1，性能媲美OpenAI o1

精品推荐

相关文章