AceReason-Nemotron-14B 模型速览

一、引言

论文介绍了 AceReason-Nemotron-14B,这是一个完全通过强化学习(RL)训练的数学和代码推理模型,其基础是 DeepSeek-R1-Distilled-Qwen-14B。该模型在多个基准测试中取得了显著成果,如在 AIME 2024 中达到 78.6% 的准确率,在 AIME 2025 中达到 67.4%,在 LiveCodeBench v5 中为 61.1%,v6 中为 54.9%,以及在 Codeforces 中提升了 543 分。作者通过对 RL 训练过程的广泛消融研究,提出了一种简单而有效的方法:首先对仅数学提示进行 RL 训练,然后对仅代码提示进行 RL 训练。研究发现,仅数学的 RL 训练不仅显著提升了模型在数学基准测试中的性能,也提升了代码推理任务的性能。此外,扩展的仅代码 RL 进一步提高了代码基准测试的性能,同时对数学结果的退化影响很小。RL 不仅激发了模型在预训练和监督微调中获得的基础推理能力,还推动了模型推理能力的极限,使其能够解决以前无法解决的问题。

二、方法

(一)训练方法

AceReason-Nemotron-14B 的训练方法是基于强化学习(RL)的。作者首先对仅数学提示进行 RL 训练,然后对仅代码提示进行 RL 训练。这种训练方法的提出是基于对 RL 训练过程的广泛消融研究。作者发现,仅数学的 RL 训练不仅能显著提升模型在数学基准测试中的性能,还能提升代码推理任务的性能。此外,扩展的仅代码 RL 进一步提高了代码基准测试的性能,同时对数学结果的退化影响很小。

(二)训练过程

训练过程开始于 DeepSeek-R1-Distilled-Qwen-14B。作者通过对数学和代码任务的强化学习训练,逐步提升了模型在这些任务上的表现。在训练过程中,作者系统地研究了 RL 训练过程,并提出了上述简单的训练方法。

三、结果

作者在 AIME 2024、AIME 2025、LiveCodeBench v5(2024/08/01 - 2025/02/01)和 LiveCodeBench v6(2025/02/01-2025/05/01)等基准测试中评估了 AceReason-Nemotron-14B 模型,并与其他具有竞争力的推理模型进行了比较。下表展示了部分评估结果:

模型 AIME 2024 (avg@64) AIME 2025 (avg@64) LCB v5 (avg@8) LCB v6 (avg@8)
QwQ-32B 79.5 65.8 63.4 -
DeepSeek-R1-671B 79.8 70.0 65.9 -
Llama-Nemotron-Ultra-253B 80.8 72.5 66.3 -
o3-mini (medium) 79.6 76.7 67.4 -
Light-R1-14B 74 60.2 57.9 51.5
DeepCoder-14B (32K Inference) 71 56.1 57.9 50.4
OpenMath-Nemotron-14B 76.3 63.0 - -
OpenCodeReasoning-Nemotron-14B - - 59.4 54.1
Llama-Nemotron-Super-49B-v1 67.5 60.0 45.5 -
DeepSeek-R1-Distilled-Qwen-14B 69.7 50.2 53.1 47.9
DeepSeek-R1-Distilled-Qwen-32B 72.6 54.9 57.2 -
AceReason-Nemotron-14B 78.6 67.4 61.1 54.9

四、使用指南

论文还提供了 AceReason-Nemotron-14B 模型的使用指南,包括如何使用该模型来解决数学和代码问题。例如,对于数学问题,建议在用户提示中直接放置所有指令,并使用特定的指令格式来引导模型进行逐步推理,并在最后的答案中使用 \boxed{}。对于代码问题,提供了如何构建提示的建议,包括是否提供起始代码,并给出了相应的提示格式。

五、总结

AceReason-Nemotron-14B 论文展示了通过强化学习训练的数学和代码推理模型的潜力。该模型在多个基准测试中取得了显著的性能提升,证明了所提出训练方法的有效性。作者还分享了训练配方和训练日志,以便其他研究人员可以进一步研究和改进这一方法。

以上内容是对论文的简要讲解,接下来将用表格汇总出其中的核心技术:

在这里插入图片描述

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐