DeepSeek R1系列发布:强势挑战OpenAI,开启AI模型新纪元
时间:2025-01-22 02:40
小编:小世评选
来源:市场资讯
来源:硅星人Pro
作者|王兆洋
在DeepSeek V3于一个月前引发热议后,DeepSeek的全新“能量源”——R1系列正式登场。1月20日,DeepSeek在Huggingface上上传了R1系列的技术报告及相关信息,标志着其在人工智能领域的又一次重要突破。
这次发布的R1系列包括三款模型:是DeepSeek-R1-Zero,这款模型直接将强化学习(RL)应用于基准模型,完全不依赖监督微调(SFT)数据;第二款是DeepSeek-R1,它在经过数千个长思维链示例微调的基础上,进一步应用强化学习;,DeepSeek通过将R1中的推理能力蒸馏到小型密集模型,完成了整个系列的构建。
DeepSeek-R1在2024年AIME比赛中表现优异,成绩达79.8%,略优于OpenAI的o1-1217。在MATH-500测试中,DeepSeek-R1以97.3%的高分与OpenAI o1-1217相当,并明显超越其他对手。在与编码相关的任务中,DeepSeek-R1在Codeforces的编码竞赛中获得了2029 Elo评级,展现出专家级的表现,超过了96.3%的人类参与者。与工程相关的任务上,DeepSeek-R1的表现也略胜于OpenAI o1-1217。
最引人注目的,是DeepSeek R1-Zero的创新训练方法。DeepSeek彻底摒弃了以往大规模预训练模型中至关重要的SFT方法,采用完全由强化学习驱动的方式。这一革命性的做法,使得DeepSeek-R1-Zero的性能在强化学习训练过程中逐步提升。报告显示,在AIME 2024赛事中,DeepSeek-R1-Zero的平均pass@1得分从最初的15.6%跃升至71.0%,与OpenAI的o1-0912相当,突显了深度强化学习在优化模型表现方面的有效性。
尽管DeepSeek-R1-Zero的表现令人印象深刻,但由于缺乏人类监督数据的介入,模型在某些情况下会出现混乱的现象。对此,DeepSeek采取了一系列改进措施:一是通过引入数千条高质量的冷启动数据进行初步微调,显著提升了模型的可读性和多语言处理能力;二是通过两阶段的强化学习不断优化推理模式,并对齐人类偏好,增强了模型的多任务能力;三是结合拒绝采样和多领域数据集,进一步强化了模型在写作、问答和角色扮演等非推理任务的能力。
DeepSeek的这一技术路线相比OpenAI的o系列更具创新性,尤其是在处理有监督数据的策略上,表现出相对的激进性。此策略不仅解决了运用现成数据的局限,更强调了模型从抽象思维中自我生成推理链条的必要性。
在技术报告中,还提及了DeepSeek-R1-Zero自我进化过程中展现出的“顿悟时刻”,随着模型计算能力的提升,复杂行为会自然涌现,包括对之前步骤的反思和探索替代解决方案的能力。这种通过与强化学习环境的交互所产生的自然行为,极大增强了模型的推理能力,为更复杂任务的解决提供了可能。
除了技术创新,DeepSeek在模型蒸馏方面也迈出了重要一步。DeepSeek-R1系列不仅开源了模型权重,还允许用户通过蒸馏技术,借助DeepSeek-R1训练其他模型。官方宣布通过DeepSeek的输出,已经在得到了6个小型模型,其中32B和70B模型在多项能力上对标OpenAI o1-mini的表现。这样的周到设计,标志着DeepSeek在开发成本和资源利用上的把控能力。
当前,DeepSeek R1系列的发布,让其在激烈的AI竞争中脱颖而出,显示出对OpenAI的显著威胁。与OpenAI的战略相比,DeepSeek显露出更强的创新活力。OpenAI在训练过程中的对齐理念多是延续GPT系列形成的模式,但先是安全和对齐研究人员的离职,再加上对外发布的封闭策略,使得OpenAI的创新活力明显减弱。
DeepSeek R1系列通过巨大的算力及丰富资源构建了一款强大的基础模型。尤其是其深化的强化学习应用,充分显示出其在AI领域的潜力。面向未来,DeepSeek与OpenAI的比拼将持续吸引行业关注,未来发展趋势,值得期待。