一文了解大模型应用基本概念，看这一篇就够了！

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

爱编程的小辞

921人浏览 · 2025-06-04 09:24:13

爱编程的小辞 · 2025-06-04 09:24:13 发布

大型语言模型（LLM）的概念

简介

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

LLM 通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。你可以把大语言模型想象成一个超级学霸，它读了互联网上无数的书、文章、对话，学会了人类语言的规律。当你问它问题或让它写东西时，它就能像人一样回答你，甚至写诗、编故事、解数学题。

模型命名

大模型（如DeepSeek-V3、通义千问2.5-VL-32B）的命名通常遵循一定的规则，以体现其架构、版本、参数规模或功能特性。以下是常见的命名规则及其示例分析：

1. 模型系列名称

DeepSeek：代表深度求索（DeepSeek）公司开发的模型系列。
通义千问（Qwen） ：代表阿里巴巴开发的通义千问系列模型。

2. 版本号

V3：表示第3代（Version 3），如DeepSeek-V3。
2.5：表示通义千问的第2.5代版本（如Qwen2.5-VL-32B）。

3. 模型架构或类型

VL：代表 Vision-Language（视觉-语言） ，表示该模型支持多模态（如图像+文本）任务，如Qwen2.5-VL-32B。
MoE：如DeepSeek-V3采用 Mixture of Experts（专家混合） 架构，激活参数37B，总参数671B。

4. 参数规模

32B：表示模型参数量为320亿（32 Billion），如Qwen2.5-VL-32B。
72B：如Qwen2.5-VL-72B，表示720亿参数。
671B：如DeepSeek-V3总参数6710亿。

5. 其他特性

Instruct：表示该模型经过指令微调，适用于对话任务（如Qwen2.5-VL-32B-Instruct）。
开源/闭源：如DeepSeek-V3是开源模型，而GPT-4是闭源模型。

另外，如果在模型名称中看到 “Distill” ，通常表示该模型是通过 知识蒸馏技术 从大模型压缩而来，特点是 轻量化、高效、适合落地应用，例如Distil-Llama-3-8B → 表示从Llama 3蒸馏出的80亿参数轻量版。

常见名词解释

Token：

大模型的Token可以通俗理解为文本处理的“积木块”，它是模型理解和生成文本的最小单位。就像拼图需要拆分成小块才能组装一样，大模型也需要将输入的句子或段落拆解成Token来处理。

例如：“我喜欢篮球！”可能被拆成：["我", "喜欢", "篮球", "!"]四个Token来处理，所以并不是一个文字对应一个token，这种文本转化为Token（通常对应数字编码），更加有利于模型的计算和处理。

大模型API通常按Token数量收费（输入+输出的Token总和）。

参数

参数是什么：参数是神经网络中权重（Weights）和偏置（Biases）的统称，通过训练过程从数据中学习得到。
这些参数决定了模型如何将输入数据映射到输出结果。

参数与训练数据的关系：

训练过程中，模型通过调整参数，将训练数据中的统计规律和语义知识编码到神经网络中。
例如：参数中可能隐含“猫是一种动物”“巴黎是法国首都”等知识。
参数本质上是数据中模式的数学表征，类似于“从数据中提取的规律库”。

蒸馏

在机器学习和深度学习中，模型蒸馏是一种将大型模型（满血版）压缩为小型模型（蒸馏版）的技术。

原理：

使用大型模型（教师模型）的输出作为监督信号，训练一个小型模型（学生模型）。
学生模型通过学习教师模型的“知识”，达到接近教师模型的性能。

满血版 是 DeepSeek 的完整形态，性能强大但资源需求高，蒸馏版 是轻量级版本，适合资源有限的场景，但性能有所下降。

温度

大模型的“温度”（Temperature）是一个控制生成文本随机性的参数，可以理解为调节模型“脑洞大小”的旋钮。

Temperature 一般取值在 0~1 之间，当取值较低接近 0 时，预测的随机性会较低，产生更保守、可预测的文本，不太可能生成意想不到或不寻常的词。当取值较高接近 1 时，预测的随机性会较高，所有词被选择的可能性更大，会产生更有创意、多样化的文本，更有可能生成不寻常或意想不到的词。

什么是RAG技术

RAG（Retrieval-Augmented Generation，检索增强生成） 是一种结合了信息检索和文本生成的技术，主要用于提升大语言模型（LLM）在问答、对话和内容生成等任务中的准确性和可靠性。RAG 的核心思想是通过检索外部知识库或文档来增强生成模型的能力，从而生成更准确、更有依据的答案。

简单理解就是：给模型配个外挂， 比如一个学生考试不会做题，但是旁边有个超级图书馆，每次做题前都翻一下图书馆里面的书，答案马上就精准了，RAG就是这么回事。所以一般配合大模型来进行检索，一般有以下步骤：

准备知识库，把一堆文档（比如公司文档，历史文章等等）整理好，存在一个图书馆里。
当问模型问题时，他先去图书馆搜索相关的资料，然后结合自己的知识融会贯通，最后进行回答。
模型本身不会改变，只是多个查资料的步骤。

通过以上例子可以看出，RAG 技术的核心优势在于：

准确性：答案基于检索到的权威信息，避免生成错误内容。
可解释性：用户可以查看检索到的文档片段，验证答案来源。
动态更新：只需更新知识库，系统就能提供最新信息。

RAG 技术特别适合需要高准确性和可解释性的场景，如企业知识库、教育问答、医疗诊断等。

完整的RAG应用流程主要包含两个阶段：

数据准备阶段：数据提取->文本分割->向量化（embedding）->数据入库
应用阶段：用户提问->数据检索（召回）->注入Prompt->LLM生成答案

LangChain

LangChain 是一个开源框架，旨在简化基于语言模型的应用程序开发，提供模块化的组件（如模型调用、记忆管理、工具集成等），可以简单类比Java界的Spring框架来理解，Nodejs界的express等。

其中：

LainChain：提供底层的核心能力。
LainGraph：提供流程编排能力。
Integrations：提供扩展和集成能力。
LangSmith：提供调试、监控、评测能力。
LainGraph Platform：LangChain 的商业化大模型应用发布平台。

LangChain.js 是基于Langchain的 JavaScript/TypeScript 版本，支持在浏览器、Node.js 等环境中快速构建AI应用，除此之外还有Python版本。

LangChain.js 支持多种 LLM 提供商（如 OpenAI、Ollama 等），并提供了灵活的接口，使得开发者可以轻松集成不同的模型和服务，主要包括以下模块包：

langchain-core：提供基础抽象和核心运行时机制（聊天模型、向量存储、工具等）的抽象接口和组装方式。
langchain：langchain的主包，包含了内置的通用的链（chains）、代理（agents）、检索策略（retrieval strategies），不包含第三方集成。
langchain-community：由LangChain社区维护的第三方集成包，包括 OpenAI、Anthropic 等 LLM，以及向量存储（如 Pinecone）、工具（如 Tavily 搜索）等。

一般来说，现在流行的dify，coze等平台都可以使用LangChain来进行开发。

Function Calling

Function Calling 是一个允许大型语言模型（如 GPT）在生成文本的过程中调用外部函数或服务的功能。

Function Calling允许我们以 JSON 格式向 LLM 模型描述函数，并使用模型的固有推理能力来决定在生成响应之前是否调用该函数。模型本身不执行函数，而是生成包含函数名称和执行函数所需的参数的 JSON。

例如，定义一个查询天气的函数：

json
复制
{
  "name": "get_weather",
  "description": "获取某地天气",
  "parameters": {
    "location": {"type": "string"},
    "date": {"type": "string"}
  }
}

用户通过自然语言提出需求（如“查询北京明天的天气”），请求被发送给大模型。
模型分析用户意图，判断是否需要调用外部函数。若需要，则生成结构化调用指令（如函数名get_weather和参数{“location”:“北京”,“date”:“明天”}）。
函数执行结果（如天气数据）返回给模型，模型结合上下文生成最终回答（如“北京明天晴，25℃”）。

MCP

Model Context Protocol (MCP) 是由 Anthropic 公司推出的一个开放协议，它标准化了应用程序如何向大型语言模型 (LLM) 提供上下文和工具的方式。我们可以将 MCP 理解为 AI 应用的"USB-C 接口"——就像 USB-C 为各种设备提供了标准化的连接方式，MCP 为 AI 模型提供了与不同数据源和工具连接的标准化方式。

通俗来说就是一个数据通信的应用协议，约定了应用和大模型之间如何传递数据进行无缝连接。

MCP和Function Calling的区别

Function Calling：单次请求-响应模式，依赖具体模型厂商的实现（如OpenAI）。
MCP：标准化协议（类似USB接口），支持多模型和多轮交互，生态更开放。

向量和向量数据库

向量是数学和物理学中的基本概念，可以理解为具有大小和方向的量。核心是有序数组的元素，通常表示为一个列或行的形式。

核心特点：

几何意义：在二维或三维空间中，向量可以用箭头表示，箭头的长度代表大小（模长），方向代表方向。
代数意义：在更抽象的数学中，向量是满足加法和标量乘法的元素，构成向量空间（Vector Space）。
维度：向量的维度由其分量的数量决定，例如：

什么是词向量

词向量是自然语言处理（NLP）和机器学习中的一项核心技术，它将非结构化数据，如单词、句子或者整个文档映射为数值化的向量（通常为实数向量），使得计算机能够理解和处理语言中的语义和语法信息。嵌入（Embeddings）背后的主要想法是，通过向量的几何距离和线性关系，隐式表达词语的语义和语法信息。也就是相似或相关的对象在嵌入空间中的距离应该很近。

Embeddings Model

文本嵌入模型（Embedding Model）是AI领域的“语义翻译器”，其实就是把文本转换成向量的方式。因为计算机不能直接理解文本这种非数字的数据，它们只能处理数字。所以，我们需要把文本转换成低维的稠密向量，才能让计算机进行计算和分析。

词向量嵌入可以在一定程度上捕捉并表达文本中的语义信息，但忽略了单词在不同语境中的意思，在RAG应用中使用的向量技术一般为通用文本向量(Universal text embedding)，与词向量不同的是向量化的单位不再是单词而是输入的文本，输出的向量会捕捉更多的语义信息。

Embedding Model的优势

更适合检索：词向量中包含了原文本的语义信息，可以通过计算问题与数据库中数据的点积、余弦距离、欧几里得距离等指标，直接获取问题与数据在语义层面上的相似度；
跨模态查询：词向量综合信息能力更强，当传统数据库存储文字、声音、图像、视频等多种媒介时，很难去将上述多种媒介构建起关联与跨模态的查询方法；但是词向量却可以通过多种向量模型将多种数据映射成统一的向量形式。

向量数据库

向量数据库（Vector Database）是一种专门用于存储、管理和查询高维向量数据的数据库系统。它的核心目标是高效处理相似性搜索（Similarity Search）任务，即快速找到与给定向量最相似的其他向量。与传统关系型数据库（如MySQL）不同，向量数据库专注于非结构化数据的向量化表示（如文本、图像、音频等）和近似最近邻（ANN）查询。

在向量数据库中，数据被表示为向量形式，每个向量代表一个数据项。这些向量可以是数字、文本、图像或其他类型的数据。向量数据库使用高效的索引和查询算法来加速向量数据的存储和检索过程。

如下图所示，是一个完整的智能Agent平台，配合上述的大语言模型LLM，RAG技术，向量数据库，解决用户问题的方案：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐