目录

🌟 背景:从 8K 到 1M,上下文记忆的难题

一、三层智能体架构概览

二、Level 1:关键词驱动的快速检索

三、Level 2:智能分块过滤 + 再检索

四、 Level 3:多跳推理智能体(ReAct + 工具调用)

五、 总结:从RAG到Agent,构建百万级理解力

📌点评


近年来,大语言模型(LLMs)在上下文处理能力上不断突破,从8K、32K直至百万 Token 上下文。阿里 Qwen 系列的最新进展之一,就是借助 Qwen-Agent 构建能处理 百万字级别上下文 的智能体。

本文将带你系统理解 Qwen-Agent 中「多层级智能体」的构建过程,揭示其如何将一个原生仅支持 8K 上下文的模型,拓展为具备 1M 理解力的强大系统。



🌟 背景:从 8K 到 1M,上下文记忆的难题

大模型的能力,受限于其上下文窗口。当前主流 LLM(如 ChatGPT、Claude、Qwen)普遍支持 8K ~ 128K token,但面对真实应用中百万字级的文档、数据集或对话历史,原生模型往往力不从心。

解决之道之一是:用多个 Agent 构建分层理解能力 + RAG(检索增强生成)+ 工具调用 + 精细微调,形成多级处理系统,实现对长文本的“碎片理解 + 逐步推理 + 上下文整合”。


一、三层智能体架构概览

Qwen-Agent 的智能体系统设计分为三个复杂度逐级提升的层级:

层级 名称 作用简述
Lv1 基础检索智能体 快速定位关键词块,构建初步语义索引
Lv2 分块过滤智能体 精确筛选相关块,提升召回精度
Lv3 多跳推理智能体 子问题拆解 + 工具调用 + 思维链


二、步骤 1:关键词驱动的快速检索

最基础的思路是构建一个轻量级的 RAG 检索智能体,它将百万字文本分割成 512 字的块,通过关键词驱动的 BM25 检索来快速锁定最相关内容:

✨ 三步流程:

  1. 抽离查询信息与指令信息
    将用户输入中的查询语义与格式化指令拆解,例如:

{
  "信息": ["自行车是什么时候发明的"],
  "指令": ["用2000字回答", "用英文回复"]
}

     2.多语言关键词生成
        利用语言模型,将语义信息转化为中英关键词:

{
  "关键词_英文": ["bicycles", "invented", "when"],
  "关键词_中文": ["自行车", "发明", "时间"]
}

 

       3.BM25 检索匹配文档块
         采用 BM25 等 IR 工具,在分块后的语料中进行关键词匹配,召回最相关的若干块,供后

         续生成使用。

✅ 优势:快速、高覆盖率
⚠️ 局限:关键词匹配不够智能,容易遗漏潜在相关内容。


 

三、Level 2:智能分块过滤 + 再检索

在实际检索中,关键词召回常常会错过语义关联但关键词不匹配的内容。因此,Qwen-Agent 提出更精细的「块级语义过滤 + 二次检索」策略:

🧩 三步策略:

  1. 模型评估每块相关性
    对每个 512 字块,模型判断其是否与查询相关:

    • 若无关,则输出 “无”

    • 若相关,输出相关语句片段

  2. 提取“相关句子”再检索
    将相关块中的句子作为新搜索 Query,重新使用 BM25 检索,扩大语义范围。

  3. 组装8K上下文用于生成
    将最终选出的块拼接组成最大 8K token 的上下文,送入模型进行答案生成。

✅ 优势:提升检索精准率,显著减少误召与漏召
⚠️ 成本:需要运行多个模型调用,但可并行化处理


四、 Level 3:多跳推理智能体(ReAct + 工具调用)

一些复杂问题无法在一个子问题中解决,需要模型具备多步逻辑思维链能力(multi-hop reasoning)。

Qwen-Agent 的解决方式是:把 Level-2 智能体封装成一个“工具”,供 Level-3 的主智能体调用,实现分阶段问答。

🔧 推理流程:

Lv3 智能体收到问题 P
while P 无法直接回答:
    拆解为子问题 Q
    调用 Lv2 工具:搜索 + 回答 Q
    将答案加入上下文记忆
生成最终答案


示例问题:

“与第五交响曲创作于同一世纪的交通工具是什么?”

Lv3 智能体思考路径:

  1. 子问题1:第五交响曲是什么时候创作的?(19世纪)

  2. 子问题2:19世纪有哪些交通工具?(自行车、火车等)

  3. 回答原始问题

✅ 优势:具备强逻辑推理与多轮信息整合能力
⚠️ 成本:推理链条长,对模型记忆和控制能力要求高


五、 总结:从RAG到Agent,构建百万级理解力

Qwen-Agent 的思路启发我们:

要让 8K 模型理解百万字上下文,不一定靠扩张模型参数,而可以靠精心设计的“智能体系统”,实现“先切片、后理解、再组合”。

层级 核心作用 技术点
Lv1 快速匹配、语义定位 关键词提取 + BM25
Lv2 精准过滤、上下文组装 语义评估 + 分块重检索
Lv3 多跳思维、工具组合调用 ReAct + Function Call


📌点评

Qwen-Agent 的设计理念不是孤例,它代表了一个趋势 —— 从「大模型单体」走向「智能体协作系统」。随着上下文需求越来越复杂,我们需要的不只是更大的窗口,而是更精巧的数据调度、更聪明的推理路径和更可控的Agent系统

如果你正在构建自己的长文本问答系统、企业文档RAG方案,强烈推荐借鉴 Qwen-Agent 的分级思维!

 

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐