Qwen3 Technical Report翻译
追求通用人工智能 (AGI) 或超级人工智能 (ASI) 一直是人类的共同目标。大型基础模型(例如 GPT-4o、Claude 3.7、Gemini 2.5、DeepSeek-V3、Llama-4 和 Qwen2.5)的最新进展,已证明在这一目标上取得了显著进展。这些模型基于涵盖不同领域和任务的数万亿个 token 的海量数据集进行训练,有效地将人类的知识和能力提炼为参数。
摘要
在本文中,我们推出了 Qwen3,这是 Qwen 模型系列的最新版本。Qwen3 包含一系列大语言模型 (LLM),旨在提升性能、效率和多语言能力。Qwen3 系列包含密集和混合专家 (MoE) 架构的模型,参数规模从 0.6 到 235 B不等。Qwen3 的一项关键创新是将思维模式(用于复杂的多步骤推理)和非思维模式(用于快速的、上下文驱动的响应)整合到一个统一的框架中。这消除了在不同模型(例如聊天优化模型(例如 GPT-4o)和专用推理模型(例如 QwQ32B)之间切换的需要,并支持基于用户查询或聊天模板的动态模式切换。同时,Qwen3 引入了思维预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂度平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建小型模型所需的计算资源,同时确保了其极具竞争力的性能。实证评估表明,Qwen3 在代码生成、数学推理、Agent 任务等多个基准测试中均取得了最佳结果,足以与更大型的 MoE 模型和专有模型相媲美。与前代 Qwen2.5 相比,Qwen3 将多语言支持从 29 种扩展到 119 种语言和方言,通过提升跨语言理解和生成能力,增强了全球可访问性。为了促进可重复性和社区驱动的研发,所有 Qwen3 模型均可在 Apache 2.0 下公开访问。
1.介绍
追求通用人工智能 (AGI) 或超级人工智能 (ASI) 一直是人类的共同目标。大型基础模型(例如 GPT-4o、Claude 3.7、Gemini 2.5、DeepSeek-V3、Llama-4 和 Qwen2.5)的最新进展,已证明在这一目标上取得了显著进展。这些模型基于涵盖不同领域和任务的数万亿个 token 的海量数据集进行训练,有效地将人类的知识和能力提炼为参数。此外,推理模型的最新进展(通过强化学习进行优化)凸显了基础模型在增强推理时扩展和实现更高智能水平方面的潜力,例如 o3 和 DeepSeek-R1。虽然大多数最先进的模型仍处于专有阶段,但开源社区的快速发展已显著缩小了开源代码和闭源模型之间的性能差距。值得注意的是,越来越多的顶级模型正在以开源形式发布,从而促进了人工智能领域更广泛的研究和创新。
在本文中,我们推出了基础模型系列 Qwen 的最新成员 Qwen3。Qwen3 是一系列开放权重的大语言模型 (LLM),在众多任务和领域中均取得了卓越的性能。我们发布了密集模型和混合专家 (MoE) 模型,参数数量从 0.6B 到 235B 不等,以满足不同下游应用的需求。值得一提的是,旗舰模型 Qwen3-235B-A22B 是一个 MoE 模型,总共拥有 235B 个参数,每个 token 有 22B 个激活参数。这种设计确保了高性能和高效的推理。
Qwen3 引入了多项关键改进,以增强其功能性和易用性。首先,它将两种不同的操作模式——思考模式和非思考模式——集成到一个模型中。这使得用户无需在不同模型之间切换即可在这些模式之间切换,例如从 Qwen2.5 切换到 QwQ。这种灵活性确保开发者和用户能够有效地调整模型的行为以适应特定任务。此外,Qwen3 还集成了思考预算,使用户能够对模型在任务执行过程中施加的推理工作量进行精细控制。此功能对于优化计算资源和性能至关重要,它可以定制模型的思考行为,以满足实际应用中不同的复杂性。此外,Qwen3 已在 36 万亿个 token 上进行了预训练,涵盖多达 119 种语言和方言,有效增强了其多语言能力。这种更广泛的语言支持增强了其在全球用例和国际应用中的部署潜力。这些进步共同确立了 Qwen3 作为尖端开源大型语言模型家族的地位,能够有效地解决跨领域和跨语言的复杂任务。
Qwen3 的预训练过程利用了一个包含约 36 万亿个 token 的大规模数据集,该数据集经过精心挑选,以确保语言和领域的多样性。为了有效地扩展训练数据,我们采用了多模态方法:Qwen2.5-VL 经过微调,可以从海量 PDF 文档中提取文本。我们还使用特定领域的模型生成合成数据:Qwen2.5-Math 用于数学内容,Qwen2.5-Coder 用于代码相关数据。预训练过程遵循三个阶段的策略。在第一阶段,模型使用约 30 万亿个 token 进行训练,以构建坚实的常识基础。在第二阶段,进一步使用知识密集型数据进行训练,以增强模型在科学、技术、工程和数学 (STEM) 以及编码等领域的推理能力。最后,在第三阶段,使用长上下文数据训练模型,将其最大上下文长度从 4,096 个 token 提升到 32,768 个 token。
为了使基础模型更好地与人类偏好和下游应用保持一致,我们采用了一种多阶段后训练方法,以赋能思维(推理)和非思维模式。在前两个阶段,我们专注于通过长思维链 (CoT) 冷启动微调和专注于数学和编程任务的强化学习来开发强大的推理能力。在最后两个阶段,我们将包含和不包含推理路径的数据合并为一个统一的数据集进行进一步微调,使模型能够有效地处理这两种类型的输入,然后我们应用通用领域的强化学习来提升各种下游任务的性能。对于较小的模型,我们使用强到弱的蒸馏,利用较大模型中的离线策略和在线策略知识迁移来增强其能力。来自高级 teacher 模型的蒸馏在性能和训练效率方面显著优于强化学习。
我们对模型的预训练和后训练版本进行了评估,测试涵盖了多种任务和领域。实验结果表明,我们的基础预训练模型达到了最佳性能。后训练模型,无论在思考模式还是非思考模式下,其性能均能与领先的专有模型以及 o1、o3-mini 和 DeepSeek-V3 等大型混合专家 (MoE) 模型相媲美。值得注意的是,我们的模型在编码、数学和 Agent 相关任务方面表现出色。例如,旗舰模型 Qwen3-235B-A22B 在 AIME’24 上取得了 85.7 分,在 AIME’25 上取得了 81.5 分,在 LiveCodeBench v5 上取得了 70.7 分,在 CodeForces 上取得了 2,056 分,在 BFCL v3 上取得了 70.8 分。此外,Qwen3 系列中的其他模型也展现出相对于其规模而言强劲的性能。此外,我们观察到,增加思考 token 的思考预算会导致模型在各种任务中的性能得到持续改善。
在以下章节中,我们将描述模型架构的设计,提供有关其训练过程的详细信息,展示预训练和后训练模型的实验结果,最后通过总结主要发现和概述未来研究的潜在方向来总结本技术报告。
2.结构
Qwen3 系列包含 6 个密集模型,分别为 Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B,以及 2 个 MoE 模型,分别为 Qwen3-30B-A3B 和 Qwen3-235B-A22B。旗舰模型 Qwen3-235B-A22B 总共拥有 235B 个参数,其中激活参数为 22B 个。下文我们将详细介绍 Qwen3 模型的架构。
Qwen3 密集模型的架构与 Qwen2.5 类似,包括使用分组查询注意力机制 (GQA)、SwiGLU、旋转位置嵌入 (RoPE) 以及 pre-normalization 的 RMSNorm。此外,我们移除了 Qwen2 中使用的 QKV-bias,并在注意力机制中引入了 QK-Norm,以确保 Qwen3 的稳定训练。表 1 提供了模型架构的关键信息。
Qwen3 MoE 模型与 Qwen3 密集模型共享相同的基本架构。表 2 提供了模型架构的关键信息。我们遵循 Qwen2.5-MoE 并实现了细粒度的专家细分。Qwen3 MoE 模型共有 128 位专家,每个 token 对应 8 位激活专家。与 Qwen2.5-MoE 不同,Qwen3-MoE 设计排除了共享专家。此外,我们采用了全局批次负载平衡损失函数来鼓励专家专业化。这些架构和训练创新显著提升了模型在下游任务中的表现。
Qwen3 模型利用 Qwen 的 tokenizer,它实现字节级字节对编码 (BBPE),词表大小为 151,669。
3. Pre-training
在本节中,我们描述了预训练数据的构建、预训练方法的细节,并展示了在标准基准上评估基础模型的实验结果。
3.1 Pre-training Data
与 Qwen2.5 相比,我们显著扩展了训练数据的规模和多样性。具体来说,我们收集了两倍的预训练 token,涵盖的语言数量也增加了三倍。所有 Qwen3 模型均基于一个庞大且多样化的数据集进行训练,该数据集包含 119 种语言和方言,总计 36 万亿个 token。该数据集涵盖了编码、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本以及合成数据等各个领域的高质量内容。
为了进一步扩展预训练数据库,我们首先使用 Qwen2.5-VL 模型对大量 PDF 类文档进行文本识别。然后,使用 Qwen2.5 模型对识别出的文本进行精炼,提升其质量。通过这两个步骤,我们能够获得额外的高质量文本 token,总计达数万亿个。此外,我们还使用 Qwen2.5、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成了数万亿个不同格式的文本 token,涵盖教科书、问答、说明书和代码片段等数十个领域。最后,我们通过引入更多多语言数据和更多语言来进一步扩展预训练语料库。与 Qwen2.5 中使用的预训练数据相比,支持的语言数量从 29 种显著提升至 119 种,增强了模型的语言覆盖范围和跨语言能力。
我们开发了一套多语言数据标注系统,旨在提升训练数据的质量和多样性。该系统已应用于我们的大规模预训练数据集,标注了超过 30 万亿个token,涵盖教育价值、学科领域、应用领域和安全等多个维度。这些详细的标注支持更高效的数据筛选和组合。与以往在数据源或领域层面优化数据混合的研究不同,我们的方法通过对小型代理模型进行大量的消融实验,并使用细粒度的数据标签,在实例层面优化数据混合。
3.2 Pre-training Stage
Qwen3 模型通过三个阶段的过程进行预训练:
- General Stage (S1):在第一个预训练阶段,所有 Qwen3 模型均使用 4,096 个 token 的序列长度,在超过 30 万亿个 token 上进行训练。在此阶段,模型已在语言能力和通用世界知识方面进行了全面的预训练,训练数据涵盖 119 种语言和方言。
- Reasoning Stage (S2):为了进一步提升推理能力,我们优化了此阶段的预训练语料,增加了 STEM、编码、推理和合成数据的比例。模型进一步使用约 5T 高质量 token 进行预训练,序列长度为 4,096 个 token。我们还在此阶段加快了学习率的衰减速度。
- Long Context Stage:在最后的预训练阶段,我们收集了高质量的长上下文语料,以扩展 Qwen3 模型的上下文长度。所有模型均基于数千亿个 token 进行预训练,序列长度为 32,768 个 token。长上下文语料库涵盖了 75% 长度在 16,384 到 32,768 个 token 之间的文本,以及 25% 长度在 4,096 到 16,384 个 token 之间的文本。在 Qwen2.5 的基础上,我们使用 ABF 技术将 RoPE 的 base 从 10,000 提升到 1,000,000。同时,我们引入了 YARN 和 Dual Chunk Attention 技术,使推理过程中的序列长度容量提升了四倍。
与 Qwen2.5 类似,我们基于上述三个预训练阶段,开发了用于预测最优超参数(例如学习率调度器 batch size)的缩放律。通过大量实验,我们系统地研究了模型架构、训练数据、训练阶段和最优训练超参数之间的关系。最后,我们为每个密集模型或 MoE 模型设定了预测的最优学习率和批次大小策略。
3.3 Pre-training Evaluation
我们对 Qwen3 系列的基础语言模型进行了全面的评估。评估主要关注其在常识、推理、数学、科学知识、编码和多语言能力方面的表现。预训练基础模型的评估数据集包含 15 个基准测试:
- General Tasks:MMLU (Hendrycks et al., 2021a) (5-shot), MMLU-Pro (Wang et al., 2024) (5-
shot, CoT), MMLU-redux (Gema et al., 2024) (5-shot), BBH (Suzgun et al., 2023) (3-shot, CoT), SuperGPQA (Du et al., 2025)(5-shot, CoT). - Math & STEM Tasks:GPQA (Rein et al., 2023) (5-shot, CoT), GSM8K (Cobbe et al., 2021) (4-shot, CoT), MATH (Hendrycks et al., 2021b) (4-shot, CoT).
- Coding Tasks:EvalPlus (Liu et al., 2023a) (0-shot) (Average of HumanEval (Chen et al., 2021), MBPP (Austin et al., 2021), Humaneval+, MBPP+) (Liu et al., 2023a), MultiPL-E (Cassano et al., 2023) (0-shot) (Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript), MBPP-3shot (Austin et al., 2021), CRUX-O of CRUXEval (1-shot) (Gu et al., 2024).
- Multilingual Tasks:MGSM (Shi et al., 2023) (8-shot, CoT), MMMLU (OpenAI, 2024) (5-shot), INCLUDE (Romanou et al., 2024) (5-shot).
对于基础模型的基线,我们将 Qwen3 系列基础模型与 Qwen2.5 基础模型以及其他领先的开源基础模型(包括 DeepSeek-V3 Base、Gemma-3、Llama-3 和 Llama-4 系列基础模型)在参数规模方面进行比较。所有模型均使用相同的评估流程和广泛使用的评估设置进行评估,以确保公平比较。
4.Post-training
Qwen3 的后训练流程在设计上有两个核心目标:
- Thinking Control:这涉及到两种不同模式的整合,即“非思考”模式和“思考”模式,为用户提供灵活选择模型是否应该进行推理,并通过为思考过程指定 token 预算来控制思考深度。
- Strong-to-Weak Distillation:这旨在简化和优化轻量级模型的后训练流程。通过利用大规模模型的知识,我们大幅降低了构建小规模模型所需的计算成本和开发工作量。
如图 1 所示,Qwen3 系列旗舰模型遵循复杂的四阶段训练流程。前两个阶段专注于培养模型的“思考”能力。后两个阶段旨在将强大的“非思考”功能集成到模型中。
初步实验表明,将 teacher 模型的输出 logits 直接提取到轻量级 student 模型中,可以有效提升其性能,同时保持对其推理过程的细粒度控制。这种方法无需为每个小规模模型单独执行详尽的四阶段训练过程。它带来了更佳的即时性能,这体现在更高的 Pass@1 分数上;同时也提升了模型的探索能力,这体现在 Pass@64 的改进结果上。此外,它以更高的训练效率实现了这些提升,与四阶段训练方法相比,所需的 GPU 时间仅为十分之一。
在以下章节中,我们将介绍四阶段训练过程,并详细解释由强到弱的蒸馏方法。
4.1 Long-CoT Cold Start
我们首先整理一个涵盖广泛类别的综合数据集,包括数学、代码、逻辑推理和一般 STEM 问题。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集将作为长思维链 (long-CoT) 训练“冷启动”阶段的基础。
数据集构建包含一个严格的两阶段过滤过程:问题过滤和响应过滤。在问题过滤阶段,我们使用 Qwen2.5-72B-Instruct 识别并移除那些不易验证的问题。这包括包含多个子问题的问题,或要求生成通用文本的问题。此外,我们还会排除那些 Qwen2.5-72B-Instruct 无需使用 CoT 推理即可正确回答的问题。这有助于防止模型依赖肤浅的猜测,并确保只包含需要更深入推理的复杂问题。此外,我们使用 Qwen2.5-72B-Instruct 标注每个问题的领域,以在整个数据集中保持领域表征的平衡。
在保留验证的问题集后,我们使用 QwQ-32B 为每个剩余问题生成 N 个候选答案。当 QwQ-32B 持续无法生成正确答案时,人工标注员将手动评估答案的准确性。对于 Pass@N 为正的问题,我们将应用更严格的过滤标准,以移除以下类型的答案:(1) 最终答案不正确;(2) 包含大量重复内容;(3) 明显是猜测,但推理不足;(4) 思考内容与摘要内容不一致;(5) 语言混合或风格转换不当;(6) 疑似与潜在验证集条目过于相似。随后,我们会从精炼数据集中精心挑选一个子集,用于推理模式的初始冷启动训练。此阶段的目标是在模型中灌输基础推理模式,但不会过分强调即时推理性能。这种方法可以确保模型的潜力不受限制,从而在后续的强化学习 (RL) 阶段获得更大的灵活性和改进。为了有效地实现这一目标,最好尽量减少准备阶段的训练样本数量和训练步骤。
4.2 Reasoning RL
推理强化学习阶段使用的问题-验证器对必须满足以下四个标准:(1)它们在冷启动阶段未使用过。(2)它们对于冷启动模型来说是可学习的。(3)它们尽可能具有挑战性。(4)它们涵盖广泛的子领域。我们最终收集了总共 3,995 个问题-验证器对,并使用 GRPO 更新模型参数。我们观察到,使用较大的 batch size 和每个问题的大量 rollout 数量,以及使用 off-policy 训练来提高样本效率,对训练过程有益。我们还解决了如何通过控制模型的熵稳步增加或保持稳定来平衡探索和利用,这对于维持稳定的训练至关重要。因此,我们在单次强化学习运行过程中实现了训练奖赏和验证性能的持续提升,而无需对超参数进行任何手动干预。例如,Qwen3-235B-A22B 模型的 AIME’24 分数在总共 170 个 RL 训练步骤中从 70.1 增加到 85.1。
4.3 Thinking Mode Fusion
思维模式融合阶段的目标是将“非思维”能力融入到先前开发的“思维”模型中。这种方法允许开发者管理和控制推理行为,同时降低为思维和非思维任务分别部署模型的成本和复杂性。为了实现这一目标,我们对进行推理强化学习后的模型进行了持续有监督微调 (SFT),并设计了一个聊天模板来融合这两种模式。此外,我们发现,能够熟练处理这两种模式的模型在不同的思维预算下都能始终保持良好的表现。
Construction of SFT data。SFT 数据集融合了“思考型”和“非思考型”数据。为了确保第二阶段模型的性能不会因额外的 SFT 而受到影响,“思考型”数据是通过对第一阶段问题进行拒绝采样生成的,该采样过程使用第二阶段模型本身完成。而“非思考型”数据则经过精心筛选,涵盖了各种任务,包括编程、数学、指令遵循、多语言任务、创意写作、问答和角色扮演。此外,我们使用自动生成的检查表来评估“非思考型”数据的响应质量。为了提升在资源匮乏的语言任务上的性能,我们特别增加了翻译任务的比例。
Chat Template Design。为了更好地融合两种模式,并允许用户动态切换模型的思考过程,我们为 Qwen3 设计了聊天模板,如表 9 所示。具体而言,针对思考模式和非思考模式的样本,我们在用户问题或系统消息中分别引入 /think 和 /no think token,使模型能够跟随用户的输入,并相应地选择合适的思考模式。对于非思考模式的样本,我们在 assistant 的响应中保留一个空的思考块。这种设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中串联一个空的思考块来阻止模型进行思考行为。由于模型默认以思考模式运行,因此我们添加了一些用户问题中不包含 /think token的思考模式训练样本。对于更复杂的多轮对话,我们在用户查询中随机插入多个 /think 和 /no thinktoken,模型响应遵循最后一个遇到的token。
Thinking Budget。思维模式融合的另一个优势在于,一旦模型学会了在非思维和思维模式下做出反应,它就会自然而然地发展出处理中间情况的能力——基于不完整的思维生成响应。这种能力为实现对模型思维过程的预算控制奠定了基础。具体来说,当模型的思维时长达到用户定义的阈值时,我们会手动停止思维过程,并插入停止思考的指令:“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>\text{</think>}</think>.\n\n”。插入此指令后,模型会根据此前积累的推理生成最终响应。值得注意的是,这种能力并非经过专门训练,而是在应用思维模式融合后自然形成的。
4.4 General RL
通用强化学习阶段旨在全面提升模型在不同场景下的能力和稳定性。为此,我们建立了一个完善的奖赏系统,涵盖 20 多个不同的任务,每个任务都有定制的评分标准。这些任务具体针对以下核心能力的提升:
- Instruction Following:此功能可确保模型准确解释和遵循用户指令,包括与内容、格式、长度和结构化输出的使用相关的要求,从而提供符合用户期望的响应。
- Format Following:除了明确的指令外,我们还期望模型遵循特定的格式约定。例如,它应该通过在思考模式和非思考模式之间切换,对 /think 和 /no think token做出适当的响应,并在最终输出中始终使用指定的token(例如 <think>\text{<think>}<think> 和 </think>\text{</think>}</think>)来区分思考部分和响应部分。
- Preference Alignment:对于开放式问题,偏好对齐侧重于提升模型的实用性、参与度和风格,最终提供更自然、更令人满意的用户体验。
- Agent Ability:这涉及训练模型通过指定接口正确调用工具。在强化学习部署过程中,模型能够通过真实环境执行反馈完成完整的多轮交互循环,从而提升其在长期决策任务中的表现和稳定性。
- Abilities for Specialized Scenarios:在更专业的场景中,我们会根据具体情境设计任务。例如,在检索增强生成 (RAG) 任务中,我们会融入奖赏信号,引导模型生成准确且符合情境的响应,从而最大限度地降低出现幻觉的风险。
为了对上述任务提供反馈,我们采用了三种不同类型的奖赏:
- Rule-based Reward:基于规则的奖赏机制在推理强化学习阶段得到了广泛的应用,并且对于指令遵循和格式遵循等常规任务也非常有用。精心设计的基于规则的奖赏机制可以高精度地评估模型输出的正确性,从而防止奖赏被黑客攻击等问题。
- Model-based Reward with Reference Answer:在这种方法中,我们为每个问题提供一个参考答案,并提示 Qwen2.5-72B-Instruct 根据此参考答案对模型的响应进行评分。这种方法可以更灵活地处理各种任务,而无需严格的格式要求,从而避免了纯粹基于规则的奖赏可能出现的假阴性。
- Model-based Reward without Reference Answer:利用人类偏好数据,我们训练了一个奖赏模型,为模型响应分配标量分数。这种方法不依赖于参考答案,可以处理更广泛的问题,同时有效提升模型的参与度和实用性。
4.5 Strong-to-Weak Distillation
强到弱蒸馏流程专为优化轻量级模型而设计,涵盖 5 个密集模型(Qwen3-0.6B、1.7B、4B、8B 和 14B)以及 1 个 MoE 模型(Qwen3-30B-A3B)。这种方法在提升模型性能的同时,有效地赋予了模型强大的模式切换能力。蒸馏过程分为两个主要阶段:
- Off-policy Distillation:在这个初始阶段,我们将结合使用 /think 和 /no think 模式生成的 teacher 模型的输出,进行响应蒸馏。这有助于轻量级学生模型发展基本的推理能力以及在不同思维模式之间切换的能力,为下一个在线策略训练阶段奠定坚实的基础。
- On-policy Distillation:在此阶段,student 模型会生成符合策略的序列以供微调。具体来说,系统会采样提示,学生模型会以 /think 或 /no think 模式生成响应。然后,通过将学生模型的 logtis 向量与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logtis 向量对齐,对学生模型进行微调,以最小化 KL 散度。
4.6 Post-training Evaluation

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)