免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 数码科技 > 上海AI Lab突破性强化学习算法超越DeepSeek,实现数学推理新高度

上海AI Lab突破性强化学习算法超越DeepSeek,实现数学推理新高度

时间:2025-02-22 04:40

小编:小世评选

上海AI Lab近日公布了一项令人振奋的研究成果,他们开发的一种基于结果奖励的强化学习新范式,成功突破了以往数学推理中的瓶颈,超越了广为人知的DeepSeek-R1模型。这一创新性算法的核心在于其无需蒸馏超级大模型,通过微调现有模型即可显著提升数学推理的表现。

强化学习的重大挑战

数学推理任务的复杂性在于其独特的反馈机制,研究团队发现许多当前的算法在处理此类问题时面临“三重门”困境:

1. 反馈机制的局限性:二元的正确与错误反馈往往不足以优化复杂推理过程中的模型学习。

2. 错误引导的问题:在长链推理中,某些部分正确的步骤可能会误导模型朝向错误的学习方向。

3. 蒸馏带来的挑战:传统的蒸馏方法让研究者陷入“参数规模的军备竞赛”,难以有效解决特定的推理任务。

针对这些问题,上海AI Lab研究团队决定重新审视现有的强化学习框架,设计了一种新型结果奖励强化学习算法,并通过理论分析与实证研究来验证其优越性。

理论创新与实验效果

团队的研究表明,在二元反馈环境下,通过最佳轨迹采样(BoN)可直接学习到最优策略,并且通过奖励重塑来确保策略优化目标的一致性。在新的设计中,研究者强调不同序列中各部分对最终结果的贡献不均,需要建立更为细致的奖励分配机制。

例如,研究者发现,直接惩罚负样本可能导致梯度偏差,因此在训练负样本时需要维护优化梯度形态与BoN分布的一致性。这些理论上的创新为强化学习算法的改进提供了重要理论支持,设计这样的奖励机制可使模型更好地吸收成功经验,同时准确识别关键的错误环节。

在解决长推理链问题时,团队还引入了token重要性估计器,允许通过反向分解的方法追踪每个推理步骤的结果奖励。这样的方法极大提升了模型在长序列任务中的表现,使其能够更加精准地进行梯度更新。

进一步的应用与开源承诺

实验结果显示,该团队在使用仅为4000条高质量训练样本的情况下,于7B和32B两个模型规模上取得了令人瞩目的成绩。尤其是在MATH-500测试中,Oreal-7B模型达到了91.0的pass@1准确率,这一成果为基于强化学习的算法设立了新的里程碑。

而在随后的测试中,研究团队将他们的新模型Oreal应用于先前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B),该模型在同样的测试集上取得了94.0的pass@1分数,创造了新的7B模型记录。同时,Oreal-32B模型在同一测试集上的得分也达到了95.0,刷新了32B模型的最高记录。

通过这些实验,团队意识到不同基础模型的性能提升潜力各异,因此他们还研究了不同基座模型对于最终性能的影响。从结果可以看出,强大的基础模型更能在强化学习后展现提升。

未来展望与可持续研究路径

尽管团队取得了显著成果,但研究者也指出,训练语料的质量、难度和数量对模型的表现具有关键影响。未来的研究将在这一领域继续深入,探索如何优化训练数据和提升模型的潜在能力。

为了解决目前社区尚存的对比不清晰的问题,研究团队将整个强化学习训练过程中使用的数据及模型公开开源,包括训练代码和相关资源,以供其他研究者进行实验与对比。这一举措不仅推动了相关研究的透明度,也为进一步探索强化学习在数学推理中的应用提供了基础。

上海AI Lab的突破性研究不仅推动了数学推理模型的进步,还建立了基于强化学习的新标准。通过独特的算法设计与开放的研究方式,他们为未来的AI研究奠定了新的基石,为科研界提供了更多的可能性。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多