七、传统 RAG 与 HyDE 对比

图片

上图清晰对比了两种检索增强生成(RAG,Retrieval-Augmented Generation)技术的工作机制:

用途:帮助我们理解传统RAG与HyDE(Hypothetical Document Embeddings)在 知识检索问答系统 中的差异。

1)上半部分:Traditional RAG(传统RAG)

原理步骤:

文档预处理

  • 将额外知识(Additional documents)通过 Embedding model 编码为向量。

向量入库

  • 把这些向量数据索引进 Vector database(向量数据库)

用户查询编码

  • 用户的 Query 也通过相同 Embedding 模型编码。

相似度检索

  • 在向量数据库中使用 Query 向量进行 相似度检索,找出最接近的文档向量。

提取相关文档

  • 找到若干与 Query 最相似的文档(即“检索到的上下文”)。

拼接提示词(Prompt)

  • 将 Query 和检索结果拼成 Prompt,送入大模型(LLM)。

生成答案

  • LLM 生成带参考信息的响应(Response)。

2)下半部分:HyDE(Hypothetical Document Embeddings)

HyDE 是一种更高级的技术,使用大语言模型生成“假设文档”来提升检索质量。

与传统 RAG 的不同点:

核心思想:不是直接用 query 去查库,而是先让模型生成一段“假设文档”,用它来作为更丰富的语义检索向量。

原理步骤:

1-2. 同上:额外文档编码并索引进向量库。

  1. 生成 Hypothetical Prompt
    系统将用户 Query 作为提示词(Prompt: Write a passage about )传入 LLM。

  2. LLM生成 Hypothetical 文本
    模型生成一段与 Query 有关的“假设文本”(Hypothetical text)。

  3. 对 Hypothetical Text 编码
    将其编码为向量。

  4. 以假设向量做相似度搜索
    用它在向量数据库中检索最相似的文档(比原始 Query 更丰富)。

  5. 提取上下文文档

  6. 拼接 Prompt:Query + Hypothetical Text + 检索文档 → Prompt。

  7. 最终响应生成:LLM 生成最终答案。

3)总结对比

特征 Traditional RAG HyDE
查询方式 直接基于 Query 向量搜索 基于 LLM 生成的“假设文档”向量搜索
语义丰富度 依赖 Query 本身 利用 Hypothetical 文本扩展 Query 语义
检索效果 容易受限于 Query 质量 对模糊、短语义 Query 更健壮
使用模型 一个 Embedding 模型 + 一个 LLM 一个 LLM(生成假设)+ 一个 Embedding 模型 + 一个 LLM(最终回答)

4)应用建议

  • 若你的 Query 较长、语义明确,用 传统 RAG 即可;
  • 若你面临 模糊问题、复杂查询、用户表达不清楚 的情况,HyDE 能提升检索质量与回答准确性。

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐