DeepSeek R1系列发布：强势挑战OpenAI，开启AI模型新纪元

时间：2025-01-22 02:40

小编：小世评选

来源：市场资讯

来源：硅星人Pro

作者｜王兆洋

在DeepSeek V3于一个月前引发热议后，DeepSeek的全新“能量源”——R1系列正式登场。1月20日，DeepSeek在Huggingface上上传了R1系列的技术报告及相关信息，标志着其在人工智能领域的又一次重要突破。

这次发布的R1系列包括三款模型：是DeepSeek-R1-Zero，这款模型直接将强化学习（RL）应用于基准模型，完全不依赖监督微调（SFT）数据；第二款是DeepSeek-R1，它在经过数千个长思维链示例微调的基础上，进一步应用强化学习；，DeepSeek通过将R1中的推理能力蒸馏到小型密集模型，完成了整个系列的构建。

DeepSeek-R1在2024年AIME比赛中表现优异，成绩达79.8%，略优于OpenAI的o1-1217。在MATH-500测试中，DeepSeek-R1以97.3%的高分与OpenAI o1-1217相当，并明显超越其他对手。在与编码相关的任务中，DeepSeek-R1在Codeforces的编码竞赛中获得了2029 Elo评级，展现出专家级的表现，超过了96.3%的人类参与者。与工程相关的任务上，DeepSeek-R1的表现也略胜于OpenAI o1-1217。

最引人注目的，是DeepSeek R1-Zero的创新训练方法。DeepSeek彻底摒弃了以往大规模预训练模型中至关重要的SFT方法，采用完全由强化学习驱动的方式。这一革命性的做法，使得DeepSeek-R1-Zero的性能在强化学习训练过程中逐步提升。报告显示，在AIME 2024赛事中，DeepSeek-R1-Zero的平均pass@1得分从最初的15.6%跃升至71.0%，与OpenAI的o1-0912相当，突显了深度强化学习在优化模型表现方面的有效性。

尽管DeepSeek-R1-Zero的表现令人印象深刻，但由于缺乏人类监督数据的介入，模型在某些情况下会出现混乱的现象。对此，DeepSeek采取了一系列改进措施：一是通过引入数千条高质量的冷启动数据进行初步微调，显著提升了模型的可读性和多语言处理能力；二是通过两阶段的强化学习不断优化推理模式，并对齐人类偏好，增强了模型的多任务能力；三是结合拒绝采样和多领域数据集，进一步强化了模型在写作、问答和角色扮演等非推理任务的能力。

DeepSeek的这一技术路线相比OpenAI的o系列更具创新性，尤其是在处理有监督数据的策略上，表现出相对的激进性。此策略不仅解决了运用现成数据的局限，更强调了模型从抽象思维中自我生成推理链条的必要性。

在技术报告中，还提及了DeepSeek-R1-Zero自我进化过程中展现出的“顿悟时刻”，随着模型计算能力的提升，复杂行为会自然涌现，包括对之前步骤的反思和探索替代解决方案的能力。这种通过与强化学习环境的交互所产生的自然行为，极大增强了模型的推理能力，为更复杂任务的解决提供了可能。

除了技术创新，DeepSeek在模型蒸馏方面也迈出了重要一步。DeepSeek-R1系列不仅开源了模型权重，还允许用户通过蒸馏技术，借助DeepSeek-R1训练其他模型。官方宣布通过DeepSeek的输出，已经在得到了6个小型模型，其中32B和70B模型在多项能力上对标OpenAI o1-mini的表现。这样的周到设计，标志着DeepSeek在开发成本和资源利用上的把控能力。

当前，DeepSeek R1系列的发布，让其在激烈的AI竞争中脱颖而出，显示出对OpenAI的显著威胁。与OpenAI的战略相比，DeepSeek显露出更强的创新活力。OpenAI在训练过程中的对齐理念多是延续GPT系列形成的模式，但先是安全和对齐研究人员的离职，再加上对外发布的封闭策略，使得OpenAI的创新活力明显减弱。

DeepSeek R1系列通过巨大的算力及丰富资源构建了一款强大的基础模型。尤其是其深化的强化学习应用，充分显示出其在AI领域的潜力。面向未来，DeepSeek与OpenAI的比拼将持续吸引行业关注，未来发展趋势，值得期待。

DeepSeek R1系列发布：强势挑战OpenAI，开启AI模型新纪元

精品推荐

相关文章