‌RAG(Retrieval-Augmented Generation)‌是一种结合了信息检索和语言生成技术的人工智能模型,旨在通过引用外部知识库来优化大语言模型的生成结果,从而提高预测的质量和准确性。

AnythingLLM则是一个更广泛的概念,指的是将所有可用的语言模型资源整合到一个统一的平台上,提供全面的语言处理能力。这种整合可以包括多个LLM模型、不同的知识库和各种工具,形成一个综合的语言处理生态系统‌。

在具体应用场景中,RAG和AnythingLLM可以协同工作,提供更强大的语言处理能力。例如,在智能客服领域,RAG可以快速从知识库中检索相关信息,并结合生成技术给出更准确的回答。而AnythingLLM则可以通过整合多个LLM模型和工具,提供更全面的语言处理服务,满足不同场景的需求‌。

AnythingLLM 是由 Mintplex Labs Inc. 开发的一款全栈应用程序, 全方位AI应用程序。与文档聊天,使用AI代理,高度可配置,多用户,无需繁琐的设置。 可使用现成的商业大语言模型或流行的开源大语言模型,再结合向量数据库解决方案构建一个私有ChatGPT,不再受制于人。

5b8acc18ec47795a37c96b42222a4d86.png

nomic-embed-text 是一个基于 Sentence Transformers 库的句子嵌入模型,专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色,特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入,这些嵌入在语义上非常接近,从而在相似度计算和分类任务中表现优异。

至于为什么不使用官方自带的AnythingLLMEmbedder,也找不到原因,之前尝试过使用,最后的结果就是无法处理上传的文件。

我们可以在terminal下使用ollama直接拉取ollama pull nomic-embed-text

5d849d7195fe0711bf5f3584a1404ecf.png

在准备好前序工作后,我们开始step by step操作。

1、到https://anythingllm.com/desktop下载相对应的版本

b69abfd67770b8229a34b3189056db65.png

2、开始安装,需要比较漫长的等待,中途会下载很多模型

3b48a9af4261773888a1fe37126b50b2.png

3、打开Anything LLM,开始Get started

439e63bce9eea3e56dade2e892712cb9.png

4、在下一个页面,选择“Ollama”

3e2be52facc52c435a440ca23f0c3625.png

5、点击后,选择“DeepSeek-r1”,先正确输入Ollama Base URL后,再选择对应Ollama Model

14029cdd46adf6e45dbf07e5d02c94b4.png

6、快速略过该步骤,后续再修改

5459701288e1386d14533e89c5d0858b.png

7、点击Skip Survey

99ff61721632f7f59d488825b4d6490a.png

8、给自己的工作区命名一下

0a9121ba9a829b232a70265e9a53be07.png

9、完成后的默认界面如下:

6da26064c3b28b0c347879622d04791f.png

10、再回过头,点击左下角的小扳手,进行相关配置,设置Display Language为Chinese

920f24f5fbb7e2d09bffe1056d7435d3.png

11、在代理技能处,配置Web Search,设置Live web search and browsing为开启状态

a44b6d9e4e52ea7fa8d6a661078325d5.png

12、在Search available web-search providers处选择DuckDuckGo

94a1aaab77d02f0dd946fcf8618bf64c.png

13、在Embedder首选项处,选择嵌入引擎提供商为Ollama,输入正确的Ollama Base URL后,选择Ollama Embedding Model为nomic-embed-text

2807e19f717637162effb78226176a76.png

14、在soluntion处点击Thread开始对话,输入几个常识性的小众问题,基本十个大模型有八个回答是错误的。

1caefc96d2d6cc409cb304ec6f07b5d1.png

15、上传自有知识库

到百度词条,查询琼山区(https://baike.baidu.com/item/%E7%90%BC%E5%B1%B1%E5%B8%82/535043),另存为琼山区.txt

点击Send a message下面的回形针图标,上传琼山区.txt

1c029705117fa36df5d2a44ac9e90814.png

16、在File embedded!后,再测试同样的问题,可以看到人口已经符合预期,但面积还是有问题,总的来说还是有进步。

386d237b453817e398785530f550584a.png

17、换个问题再测试一下,写一篇3000字的琼山区农业产业大数据的解决方案

f5f33ef846e1e31b07ce9337ede0e34f.png

18、我们继续投喂自己的知识库,当然部分文档可能由于格式问题,不一定能转换成功。

a99997807948038145f067e0a3486f27.png

19、待知识库File embedded!处理完成后,我们再进行问题的测试。

c372a062c85b63d896d8a3edd98c6c0c.png

20,最后,我们的知识库就搭建完成了。

最后欢迎关注公众号:python与大数据分析

图片

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐