英伟达开源AceReason-Nemotron-14B速览：完全通过强化学习（RL）训练的数学和代码推理模型

AceReason-Nemotron-14B是一种基于强化学习(RL)训练的数学与代码推理模型，在多个基准测试中表现出色。该模型采用两阶段RL训练策略：首先针对数学问题进行训练，随后针对代码问题进行优化。实验结果表明，数学训练不仅提升数学能力(如AIME 2024达78.6%)，还意外增强了代码推理性能；而后续的代码训练进一步提升了编程任务表现(如LiveCodeBench v5达61.1%)，同

Panesle

905人浏览 · 2025-05-26 09:42:04

Panesle · 2025-05-26 09:42:04 发布

AceReason-Nemotron-14B 模型速览

一、引言

论文介绍了 AceReason-Nemotron-14B，这是一个完全通过强化学习（RL）训练的数学和代码推理模型，其基础是 DeepSeek-R1-Distilled-Qwen-14B。该模型在多个基准测试中取得了显著成果，如在 AIME 2024 中达到 78.6% 的准确率，在 AIME 2025 中达到 67.4%，在 LiveCodeBench v5 中为 61.1%，v6 中为 54.9%，以及在 Codeforces 中提升了 543 分。作者通过对 RL 训练过程的广泛消融研究，提出了一种简单而有效的方法：首先对仅数学提示进行 RL 训练，然后对仅代码提示进行 RL 训练。研究发现，仅数学的 RL 训练不仅显著提升了模型在数学基准测试中的性能，也提升了代码推理任务的性能。此外，扩展的仅代码 RL 进一步提高了代码基准测试的性能，同时对数学结果的退化影响很小。RL 不仅激发了模型在预训练和监督微调中获得的基础推理能力，还推动了模型推理能力的极限，使其能够解决以前无法解决的问题。

二、方法

（一）训练方法

AceReason-Nemotron-14B 的训练方法是基于强化学习（RL）的。作者首先对仅数学提示进行 RL 训练，然后对仅代码提示进行 RL 训练。这种训练方法的提出是基于对 RL 训练过程的广泛消融研究。作者发现，仅数学的 RL 训练不仅能显著提升模型在数学基准测试中的性能，还能提升代码推理任务的性能。此外，扩展的仅代码 RL 进一步提高了代码基准测试的性能，同时对数学结果的退化影响很小。

（二）训练过程

训练过程开始于 DeepSeek-R1-Distilled-Qwen-14B。作者通过对数学和代码任务的强化学习训练，逐步提升了模型在这些任务上的表现。在训练过程中，作者系统地研究了 RL 训练过程，并提出了上述简单的训练方法。

三、结果

作者在 AIME 2024、AIME 2025、LiveCodeBench v5（2024/08/01 - 2025/02/01）和 LiveCodeBench v6（2025/02/01-2025/05/01）等基准测试中评估了 AceReason-Nemotron-14B 模型，并与其他具有竞争力的推理模型进行了比较。下表展示了部分评估结果：

模型	AIME 2024 (avg@64)	AIME 2025 (avg@64)	LCB v5 (avg@8)	LCB v6 (avg@8)
QwQ-32B	79.5	65.8	63.4	-
DeepSeek-R1-671B	79.8	70.0	65.9	-
Llama-Nemotron-Ultra-253B	80.8	72.5	66.3	-
o3-mini (medium)	79.6	76.7	67.4	-
Light-R1-14B	74	60.2	57.9	51.5
DeepCoder-14B (32K Inference)	71	56.1	57.9	50.4
OpenMath-Nemotron-14B	76.3	63.0	-	-
OpenCodeReasoning-Nemotron-14B	-	-	59.4	54.1
Llama-Nemotron-Super-49B-v1	67.5	60.0	45.5	-
DeepSeek-R1-Distilled-Qwen-14B	69.7	50.2	53.1	47.9
DeepSeek-R1-Distilled-Qwen-32B	72.6	54.9	57.2	-
AceReason-Nemotron-14B	78.6	67.4	61.1	54.9

四、使用指南

论文还提供了 AceReason-Nemotron-14B 模型的使用指南，包括如何使用该模型来解决数学和代码问题。例如，对于数学问题，建议在用户提示中直接放置所有指令，并使用特定的指令格式来引导模型进行逐步推理，并在最后的答案中使用 \boxed{}。对于代码问题，提供了如何构建提示的建议，包括是否提供起始代码，并给出了相应的提示格式。

五、总结

AceReason-Nemotron-14B 论文展示了通过强化学习训练的数学和代码推理模型的潜力。该模型在多个基准测试中取得了显著的性能提升，证明了所提出训练方法的有效性。作者还分享了训练配方和训练日志，以便其他研究人员可以进一步研究和改进这一方法。

以上内容是对论文的简要讲解，接下来将用表格汇总出其中的核心技术：

在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐