DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异,但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制,训练出一个高精度、可信赖的定理证明验证器,并以此作为奖励模型,推动生成器不断发现并修正自身证明中的错误,提升推理质量。
该方法不仅解决了传统强化学习模型忽视推理过程的问题,还通过扩大验证计算能力,自动标注新的复杂证明,持续增强验证器的能力。最终,DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩,Putnam得分高达118/120,显示出强大的数学推理和证明能力。
这一成果表明,迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力,也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战,DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。