RAG系统通过将外部知识库与语言模型相结合,显著提升了生成信息的准确性和相关性。然而,如何优化这些系统的性能,仍需深入研究。

一、RAG系统:语言模型的“外挂”

RAG系统的核心思想是将外部知识库与语言模型相结合,让模型在生成信息时能够参考最新的、准确的外部数据,从而避免“凭空想象”或生成过时的内容。就好比给语言模型配备了一个“外挂”,让它在回答问题时有据可依。

RAG系统架构图

RAG系统架构图

上图展示了RAG系统的整体架构,主要包括三个部分:查询扩展模块、检索模块和文本生成模块。查询扩展模块通过扩展用户查询,增加检索的覆盖范围;检索模块负责从知识库中检索相关信息;文本生成模块则利用检索到的信息生成最终的回答。

二、优化RAG:从理论到实践

这篇论文通过一系列实验,深入探讨了影响RAG系统性能的各种因素,包括语言模型的大小、提示设计、文档块大小、知识库大小、检索步幅、查询扩展、对比式上下文学习、多语言支持以及聚焦模式等。接下来,我们就逐一剖析这些关键因素。

1、语言模型大小:大模型的优势

实验表明,使用更大规模的语言模型(如从7B参数提升到45B参数)可以显著提升RAG系统的性能,尤其是在需要广泛知识覆盖的任务中。大模型由于参数更多,能够捕捉到更丰富的语言模式和知识结构,从而生成更准确、更全面的回答。

Size
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
7B
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
45B
29.07
14.95
25.64
58.63
81.62
11.06
2.05
9.37
30.82
38.24

从上表可以看出,Instruct45B模型在TruthfulQA数据集上的表现明显优于Instruct7B模型,尤其是在ROUGE-1和ROUGE-L指标上。这表明,更大规模的语言模型能够更好地理解和生成复杂的语言结构,从而提升RAG系统的整体性能。

2、提示词设计:细节决定成败

Prompt 是引导语言模型生成特定内容的关键。研究发现,即使是细微的提示差异,也会对模型的生成结果产生显著影响。例如,使用更具体、更明确的提示可以显著提高模型对检索信息的利用效率,从而生成更准确的回答。


TruthfulQA
MMLU
Prompt Design
R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
HelpV1
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
HelpV2
27.00
13.88
23.93
57.33
75.38
10.21
1.80
8.77
29.45
36.20
AdversV1
10.06
1.60
8.60
19.78
2.55
6.58
0.72
5.75
14.04
4.05

上表展示了不同提示设计对模型性能的影响。HelpV2提示在TruthfulQA数据集上的表现优于HelpV1提示,而AdversV1提示则表现较差。这表明,积极的提示设计能够引导模型更好地利用检索信息,而消极的提示设计则会显著降低模型的性能。

3、文档块大小:平衡上下文与相关性

文档块大小决定了模型在生成回答时参考的上下文范围。实验结果显示,较大的文档块虽然能提供更多的背景信息,但也可能引入无关内容,反而影响回答的准确性。因此,选择合适的文档块大小,平衡上下文的丰富性和内容的相关性,是优化RAG系统的重要一环。

Size
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
2DocS
27.41
13.71
24.27
57.52
78.53
10.43
1.92
8.88
29.44
38.22
2DocM
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
2DocL
26.96
13.78
23.92
57.00
82.02
10.41
1.88
8.88
29.52
36.21
2DocXL
27.60
13.98
24.46
57.66
76.44
10.54
1.95
9.00
29.67
39.35

从上表可以看出,2DocXL(192 tokens)在TruthfulQA数据集上的表现略优于其他文档块大小,但在MMLU数据集上差异不大。这表明,文档块大小对模型性能的影响因任务而异,需要根据具体任务进行调整。

4、知识库大小:质量优于数量

知识库的大小是否直接影响RAG系统的性能?研究发现,知识库的规模并不是决定性因素,关键在于知识的质量和相关性。一个精简但高度相关的知识库,往往比庞大而冗余的知识库更能提升系统的性能。

KW.Size
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
1K_2Doc
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
10K_2Doc
27.09
13.36
23.77
56.28
71.76
10.39
1.94
8.89
29.59
36.07
1K_5Doc
27.84
14.16
24.61
58.04
74.69
10.37
1.91
8.84
29.64
38.22
10K_5Doc
27.53
13.71
24.25
57.19
81.38
10.58
1.98
9.09
29.75
39.49

上表展示了不同知识库大小对模型性能的影响。1K_5Doc和10K_5Doc在TruthfulQA数据集上的表现优于1K_2Doc和10K_2Doc,但在MMLU数据集上差异不大。这表明,知识库的规模对模型性能的影响因任务而异,但总体来说,知识的质量和相关性更为重要。

5、检索步幅:动态更新的利弊

检索步幅决定了在生成过程中多久更新一次检索到的文档。实验表明,过于频繁的更新(如每生成一个词就更新一次)会破坏上下文的连贯性,反而降低回答的质量。因此,适当增大检索步幅,保持上下文的稳定性,有助于提升生成内容的连贯性和准确性。

RetrievalStride
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
Baseline
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
Stride5
26.43
12.83
23.28
55.57
71.01
10.32
1.81
8.78
29.08
38.89
Stride2
24.50
11.09
21.63
50.22
71.65
9.26
1.49
7.85
27.90
36.53
Stride1
22.35
9.89
20.25
39.80
41.80
8.12
1.16
6.91
25.38
21.35

从上表可以看出,检索步幅越小,模型性能越差。这表明,过于频繁的检索更新会破坏上下文的连贯性,从而影响生成内容的质量。

6、查询扩展:扩大搜索范围

通过扩展查询,可以增加检索的覆盖范围,从而提高找到相关信息的概率。实验结果显示,适度的查询扩展确实能提升系统的性能,但效果并不显著。这表明,查询扩展虽然有用,但并非提升RAG系统性能的关键因素。

Baseline
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
QueryExpansion
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
ExpendS
27.04
13.31
24.09
57.28
74.11
10.45
1.94
8.88
29.12
34.49
ExpendM
26.98
13.29
24.03
57.23
80.33
10.30
1.84
8.76
28.88
38.46
ExpendL
27.17
13.37
24.07
57.65
81.15
10.41
1.91
8.81
28.95
38.63

上表展示了不同查询扩展策略对模型性能的影响。ExpendL策略在TruthfulQA数据集上的表现略优于其他策略,但在MMLU数据集上差异不大。这表明,查询扩展的效果因任务而异,但总体来说,其提升效果有限。

7、对比式上下文学习:提升事实准确性

对比式上下文学习(Contrastive In-Context Learning)是一种通过对比正确和错误示例来引导模型学习的方法。实验表明,这种方法显著提升了RAG系统的事实准确性,尤其是在需要高度专业知识的任务中。通过对比正确和错误信息,模型能够更好地理解问题的细微差别,从而生成更准确的回答。

ContrastiveICL
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
Baseline
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
ICL1Doc
29.25
15.82
26.14
56.93
67.41
20.47
11.40
18.96
41.85
33.94
ICL2Doc
28.62
16.05
25.68
56.07
66.87
23.23
14.66
22.02
43.09
34.20
ICL1Doc+
30.62
17.45
27.79
58.96
73.86
25.09
15.87
23.87
47.12
43.50
ICL2Doc+
30.24
17.77
27.51
57.55
67.51
26.01
17.46
24.90
47.04
37.24

上表展示了不同对比式上下文学习策略对模型性能的影响。ICL1Doc+策略在TruthfulQA和MMLU数据集上的表现均优于其他策略,表明对比式上下文学习能够显著提升模型的事实准确性。

8、多语言支持:语言障碍的挑战

在多语言环境中,RAG系统的性能如何?研究发现,虽然多语言知识库可以提供更广泛的信息来源,但由于语言之间的差异和模型对不同语言的处理能力有限,多语言支持并未显著提升系统的性能。这表明,在多语言场景下,优化模型的语言处理能力是未来研究的重要方向。

Multi-lingual
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
Baseline
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
MultiLingo
26.12
12.71
23.15
54.04
75.27
10.45
1.87
8.89
29.15
38.40
MultiLingo+
25.69
11.86
22.48
53.85
78.75
10.42
1.91
8.91
29.24
41.00

上表展示了多语言支持对模型性能的影响。MultiLingo和MultiLingo+策略在TruthfulQA和MMLU数据集上的表现均不如基线策略,表明多语言支持并未显著提升系统的性能。

9、聚焦模式:精简信息,提升效率

聚焦模式(Focus Mode)通过仅检索与查询最相关的句子,减少了冗余信息的干扰。实验结果显示,聚焦模式显著提升了系统的性能,尤其是在需要快速、准确回答的任务中。通过聚焦最相关的信息,模型能够更高效地生成高质量的回答。

FocusMode
TruthfulQA
MMLU

R1
R2
RL
ECS
Mauve
R1
R2
RL
ECS
Mauve
Baseline
26.81
13.26
23.86
56.44
72.92
10.42
1.90
8.91
29.41
40.51
2Doc1S
26.11
12.37
23.05
55.65
73.02
10.77
2.13
9.25
29.90
41.00
20Doc20S
28.20
14.48
24.90
58.30
74.02
10.64
1.99
9.11
30.03
39.18
40Doc40S
28.32
14.54
24.99
58.36
77.95
10.78
2.02
9.20
30.01
36.20
80Doc80S
28.85
15.01
25.51
58.33
74.15
10.69
2.04
9.15
29.97
38.09
120Doc120S
28.36
14.80

上表展示了不同聚焦模式策略对模型性能的影响。80Doc80S策略在TruthfulQA数据集上的表现优于其他策略,120Doc120S策略在MMLU数据集上的表现也较为突出。这表明,聚焦模式能够显著提升系统的性能,尤其是在需要快速、准确回答的任务中。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
**`相信我,这套大模型

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐