NVIDIA Llama-3.1-Nemotron-Nano-4B-v1.1 模型速览

一、模型概述

Llama-3.1-Nemotron-Nano-4B-v1.1 是英伟达(NVIDIA)开发的大型语言模型(LLM),源自 Llama 3.1 8B,通过英伟达的 LLM 压缩技术衍生而来,在模型准确性和效率方面有所提升。这是一款推理模型,经过后续训练,适用于推理、人类聊天偏好和诸如 RAG(检索增强生成)及工具调用等任务。该模型在单个 RTX GPU 上即可运行,支持本地使用,上下文长度可达 128K,并于 2024 年 8 月至 2025 年 5 月期间进行训练,预训练数据截止到 2023 年 6 月。

二、模型训练与架构

  1. 训练过程 :经历了多阶段的后续训练,包括针对数学、代码、推理和工具调用的监督微调阶段,以及使用奖励感知偏好优化(RPO)算法进行的聊天和指令遵循的强化学习阶段,最终合并 SFT 和 RPO 检查点得到最终模型。

  2. 架构类型 :属于密集型解码器仅 Transformer 模型,网络架构基于 Llama 3.1 Minitron Width 4B Base。

三、应用场景

适用于设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动应用的开发人员,也适用于典型的指令遵循任务,尤其在需要平衡模型准确性和计算效率的场景下(可在单个 RTX GPU 上本地使用)。

四、使用方法

  1. 推理模式控制 :通过系统提示控制推理模式开关,推理开启时建议设置温度为 0.6,Top P 为 0.95;推理关闭时推荐使用贪婪解码。

  2. 代码示例

    • 推理开启示例:通过 Hugging Face Transformers 库,设置相应参数,定义系统角色为 “detailed thinking on”,实现推理开启模式。

    • 推理关闭示例:同样利用 Hugging Face Transformers 库,调整参数并设置系统角色为 “detailed thinking off”,实现推理关闭模式。

    • 防止模型在推理关闭时仍进行思考的示例:通过预先填充助手响应来避免这种情况。

  3. 运行 vLLM 服务器支持工具调用 :提供了启动 vLLM 服务器的 shell 脚本示例和虚拟环境启动方法,服务器支持工具调用,可使用 Python 脚本调用服务器并进行工具调用。

五、推理与硬件支持

推理引擎为 Transformers,测试硬件包括 1x RTX 50 系列、1x RTX 40 系列、1x RTX 30 系列、1x H100-80GB GPU、1x A100-80GB GPU,推荐操作系统为 Linux。

六、数据集

  1. 训练数据集 :用于后续训练的数据种类繁多,包括手动标注数据和合成数据,涵盖 SFT 和 RL 数据,以增强 Llama 指令模型的数学、代码、通用推理和指令遵循能力。提示信息来源于公开开放语料库或合成生成,部分提示包含推理开启和关闭模式的响应,用于训练模型区分两种模式。

  2. 评估数据集 :用于评估 Llama-3.1-Nemotron-Nano-4B-v1.1 的数据集包括 MT-Bench、MATH500、AIME25、GPQA-D、IFEval、BFCL v2 Live 和 MBPP 0-shot 等,数据收集和标注方式为混合(人类 / 合成 / 自动)。

七、评估结果

在不同评估数据集上,模型在推理开启和关闭模式下均有表现,例如在 MATH500 数据集上,推理关闭时 pass@1 为 71.8%,推理开启时 pass@1 达 96.2%;在 AIME25 数据集上,推理关闭时 pass@1 为 13.3%,推理开启时 pass@1 为 46.3%;在 GPQA-D 数据集上,推理关闭时 pass@1 为 33.8%,推理开启时 pass@1 为 55.1% 等。所有评估均在 32k 序列长度下进行,部分评估提供了用户提示模板。

八、核心技术汇总表格

在这里插入图片描述

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐