上海AI Lab突破性强化学习算法超越DeepSeek，实现数学推理新高度

时间：2025-02-22 04:40

小编：小世评选

上海AI Lab近日公布了一项令人振奋的研究成果，他们开发的一种基于结果奖励的强化学习新范式，成功突破了以往数学推理中的瓶颈，超越了广为人知的DeepSeek-R1模型。这一创新性算法的核心在于其无需蒸馏超级大模型，通过微调现有模型即可显著提升数学推理的表现。

强化学习的重大挑战

数学推理任务的复杂性在于其独特的反馈机制，研究团队发现许多当前的算法在处理此类问题时面临“三重门”困境：

1. 反馈机制的局限性：二元的正确与错误反馈往往不足以优化复杂推理过程中的模型学习。

2. 错误引导的问题：在长链推理中，某些部分正确的步骤可能会误导模型朝向错误的学习方向。

3. 蒸馏带来的挑战：传统的蒸馏方法让研究者陷入“参数规模的军备竞赛”，难以有效解决特定的推理任务。

针对这些问题，上海AI Lab研究团队决定重新审视现有的强化学习框架，设计了一种新型结果奖励强化学习算法，并通过理论分析与实证研究来验证其优越性。

理论创新与实验效果

团队的研究表明，在二元反馈环境下，通过最佳轨迹采样（BoN）可直接学习到最优策略，并且通过奖励重塑来确保策略优化目标的一致性。在新的设计中，研究者强调不同序列中各部分对最终结果的贡献不均，需要建立更为细致的奖励分配机制。

例如，研究者发现，直接惩罚负样本可能导致梯度偏差，因此在训练负样本时需要维护优化梯度形态与BoN分布的一致性。这些理论上的创新为强化学习算法的改进提供了重要理论支持，设计这样的奖励机制可使模型更好地吸收成功经验，同时准确识别关键的错误环节。

在解决长推理链问题时，团队还引入了token重要性估计器，允许通过反向分解的方法追踪每个推理步骤的结果奖励。这样的方法极大提升了模型在长序列任务中的表现，使其能够更加精准地进行梯度更新。

进一步的应用与开源承诺

实验结果显示，该团队在使用仅为4000条高质量训练样本的情况下，于7B和32B两个模型规模上取得了令人瞩目的成绩。尤其是在MATH-500测试中，Oreal-7B模型达到了91.0的pass@1准确率，这一成果为基于强化学习的算法设立了新的里程碑。

而在随后的测试中，研究团队将他们的新模型Oreal应用于先前最佳的7B模型（DeepSeek-r1-Distill-Qwen-7B），该模型在同样的测试集上取得了94.0的pass@1分数，创造了新的7B模型记录。同时，Oreal-32B模型在同一测试集上的得分也达到了95.0，刷新了32B模型的最高记录。

通过这些实验，团队意识到不同基础模型的性能提升潜力各异，因此他们还研究了不同基座模型对于最终性能的影响。从结果可以看出，强大的基础模型更能在强化学习后展现提升。

未来展望与可持续研究路径

尽管团队取得了显著成果，但研究者也指出，训练语料的质量、难度和数量对模型的表现具有关键影响。未来的研究将在这一领域继续深入，探索如何优化训练数据和提升模型的潜在能力。

为了解决目前社区尚存的对比不清晰的问题，研究团队将整个强化学习训练过程中使用的数据及模型公开开源，包括训练代码和相关资源，以供其他研究者进行实验与对比。这一举措不仅推动了相关研究的透明度，也为进一步探索强化学习在数学推理中的应用提供了基础。

上海AI Lab的突破性研究不仅推动了数学推理模型的进步，还建立了基于强化学习的新标准。通过独特的算法设计与开放的研究方式，他们为未来的AI研究奠定了新的基石，为科研界提供了更多的可能性。

上海AI Lab突破性强化学习算法超越DeepSeek，实现数学推理新高度

精品推荐

相关文章