领域大模型的挑战与机遇：从构建到应用

来自 GPT4 的技术报告中指出，GPT4 仍处于通用人工智能（AGI）的初级阶段。而目前研发中的 GPT4.5 或 GPT5 则已展现出了 AGI 的某些特征。

程序员笑武

1023人浏览 · 2025-07-25 19:42:15

程序员笑武 · 2025-07-25 19:42:15 发布

01.背景

来自 GPT4 的技术报告中指出，GPT4 仍处于通用人工智能（AGI）的初级阶段。而目前研发中的 GPT4.5 或 GPT5 则已展现出了 AGI 的某些特征。

GPT4 的出现给研究和工业界带来了巨大冲击，其显著特点是拥有强大的底座知识能力，超越了传统知识图谱，蕴含丰富的世界知识和人类常识。它能够解答各种复杂问题，包括脑筋急转弯等。对专注于知识图谱的从业者来说，常识一直是知识领域最难解决的问题，但大模型似乎轻松解决了这一问题。因此，我们不禁要问：大模型是否终结了知识工程呢？

大模型是目前唯一能利用人类常识进行开放推理的技术。传统常识知识图谱在灵活应用常识于开放推理场景上受限，而大模型则能克服这一限制。

大模型具备开放世界的理解能力，能轻松处理具体场景问题，例如，在给大模型药品说明书的情况下，面对一些具体场景的问题，大模型能轻松推理并回答。

大模型不仅限于单步问答，还能连续执行动作，形成 Agent。通过 Agent，大模型能一步步执行，去处理更复杂的一些任务，如编写代码或在 Minecraft 中收集原材料、制作工具等。

尽管大模型具有独特的甚至不可替代的优点，但我们也面临着大模型难以在领域落地的实际挑战。为什么这么强的大模型现在不能很好地被应用呢？我们也尚未看到大模型引领的工业革命的进行。这主要是由于推理成本、能力缺陷和难以协同三方面的挑战。

挑战一：大模型的推理成本限制其应用。构建和使用大模型都需要大量资源，且在实际应用中大模型的推理速度相对较慢，即使是经过优化的版本，处理文本分析仍需数秒。这与传统应用场景如文档搜索和索引的速度相差甚远，后者能在一秒内处理数十甚至上千篇文档。此外，随着大模型上下文长度的增加，如达到几十万 token，处理整个文档库将需要巨大的计算资源，导致推理成本进一步上升。这种高成本使得大模型在需要大规模重复应用的场景中变得不切实际。尽管有些企业愿意投入更多成本，但即使采购了大量计算资源并采用最新的推理技术，大模型是否能够真正完成任务并创造价值呢？

挑战二：大模型在复杂决策场景仍有缺陷。尽管大模型在聊天机器人等开放式闲聊场景中表现出色，但在工业、商业等严肃场景中，如替代程序员编写代码，大模型目前仍显不足。从开放式闲聊到复杂决策，大模型还有很长的路要走。目前的大模型，如 GPT-3 或 GPT-4，无法直接应用于特定场景，仍需要用户通过多次交互和提供 prompt 来引导。尽管许多工作正致力于提升大模型的能力，有可能发布的 GPT-4.5 或 GPT-5 等新一代模型能进一步提升性能，但即便如此，是否足够满足实际应用需求仍存有疑问。

挑战三：大模型在企业应用中需要协同能力和可控性。即使招聘了天才员工，也需要时间适应企业流程。同样，大模型也需要时间与企业现有流程相融合。即使大模型有能力重塑整个企业流程，但这也可能带来不稳定和风险，因此直接替换原有系统并不现实。实际上，人们期望大模型能够在人机协作中发挥作用，嵌入现有系统，辅助升级特定环节，而非全面替代。因此，大模型与现有业务人员或系统的对接能力，即其协同能力和可控性，显得尤为重要。在实际应用中，我们更看重大模型能否在特定环节上协同工作，而非仅仅追求其在某些测试中的高分表现。

02.大模型的领域适配

第二部分是关于大模型领域适配的研究。当前，领域大模型如医疗大模型、金融大模型等备受关注。持续预训练是构建这些模型的基本方法，虽然简单且开源，但数据问题至关重要。在选择训练数据时，面临两个主要挑战：一是数据质量，即什么样的数据是好的；二是数据配比，即如何平衡不同来源的数据。如维基百科与网络小说在数量和性质上存在显著差异，配比比例难以确定。过分依赖单一数据源可能导致模型出现偏差。如仅依赖维基百科可能导致模型缺乏娱乐性和现实感，而过多使用网络小说可能导致模型产生不符合实际情况的认知。

在领域大模型的训练中，数据的选择是一个关键问题。我们将数据分为三层：第一层是基础且不必要的数据，这些数据对于大模型来说已经足够了解，无需再重复训练；第二层是过于细节且不必要的数据，如实时股价等，这些数据对于人类专家来说也无需背诵，不适用于训练大模型；最重要的是中间层，即高价值行业数据，这些数据对于微调大模型至关重要。然而，这些行业数据数量稀少且收集成本高，导致精品语料占比小，而“垃圾”语料却占据大部分。尽管如此，两者都是不可或缺的。

针对数据选择的问题，我们提出了一个创新的解决方案。在训练大模型时，无论是预训练还是微调，我们为语料添加了一个特殊的标记，以指示其来源，如“维基”、“新闻”、“小说”或特定网站（如“起点”）。这样，模型就能像人一样区分不同来源的数据，从而更加准确地评估其可靠性。实验证明，这种简单的“来源增强”方法在许多小任务中的表现，甚至超越了未增强的更大规模的模型。

我们还有一些特别的发现。在下游任务中，如果我们提供任务相关信息，如论文分析或科幻小说创作，模型的表现会进一步提升。即使没有这些信息，经过来源增强的模型本身也优于未增强的模型。关于来源标签的选择，我们发现具体的标签表达方式并不重要。即使使用抽象字符对语料进行分类，也能增强模型效果。然而，带有语义的标签，尽管表达方式没有严格规定，却能带来更显著的增强效果。

我们正在研究一个工作，就是将语料进行系统化分类，类似于知识图谱中的整体分类。尝试使用这些分类来预训练模型，希望获得更强大的能力。目前，我们已经初步建立了训练语料分类体系，并取得了一些积极的结果。这些分类不仅存在于语料中，而且确实能有效增强模型的能力。

03.大模型的能力提升

接下来探讨领域微调和能力提升。我们强调大模型协同能力的重要性，而不仅仅是模型在 MMLU 等考试题中的表现。首要工作是提升大模型理解复杂指令的能力。这与 GPT-4 Turbo 的发布会中提到的类似，即确保模型能准确输出可解析的 JSON 格式。我们发现，模型能否给出固定、可对接的表达至关重要。因此，我们需要评估并提升模型理解复杂指令的能力。这些指令可包括各种特定要求，如格式约束（如 JSON 输出）、内容约束（如简短或详细回答）等。通过将不同类别的特殊要求自由组合来测试模型是否能遵循这些复杂指令。这样，大模型不仅能作为聊天机器人，还能更准确地满足用户在创作文章或作为 Agent 的执行器时的各种需求。

我们将复杂指令分为 8 个维度，通过自动化组合这些维度生成数据。在模型评估方面，我们更关注模型是否满足要求而非其智商或输出质量。由于是否符合要求可以通过程序自动判定，我们能够实现自动评估的效果。

当遇到复杂指令，如告诉 Agent 一个复杂指令：从特定行为中选择并以 JSON 格式输出，同时避免多余推理。可以发现，每一个任务都能通过严谨程序进行判别，从而避免了精确匹配、模糊匹配以及大模型打分的局限，实现了更精准的能力评估。然而，最终的结果并不理想。在面临 1—3 条复杂指令时，大多数模型能完全遵从；而一旦指令数量增至五条或更多，大部分模型都会遗漏或无法完成部分指令。

在工业场景中，大模型的数学能力虽受关注，但其在量纲理解上表现出了局限性。特别是在工业场景中单位至关重要，文档与实验报告中的单位错误会导致分析错误放大至 100 或 1000 倍。

我们的工作基于物理学中的量纲定义，构建了包含量纲组合知识的语料库，并据此预训练模型。通过这种方法，预训练出的模型在带有单位量的推理任务中表现出色，甚至超越了当时 GPT4 的性能。

接下来的工作专注于提升大模型的自我纠正能力。对于复杂的专业问题，大模型不应仅提供一次性的答案，而应像专家一样进行思考和修正。因此，我们设计了一个大模型“内在的自我纠正”机制，设计构造自我纠正数据集，通过指令微调，并提出了部分答案掩码（PAM）训练方法，激发大模型在问答时进行自我迭代修正。具体来说，将数据中的问答对[Q/A]扩展为[Q/A1,A2,A3]，并确保每次迭代中的答案[A2]优于[A1]，[A3]优于[A2]。通过微调大模型，使其具备自我纠正的能力，即当给出初始答案[A]后，通过追问得到更完善的答案[A1、A2]。这种自我增强方法不仅提高了答案的正确率，而且将会应用于更大规模的模型训练中。

在命令生成领域也应用了自我纠正能力。考虑到在使用命令行时，用户可能无法一次性输入正确的命令，而是需要根据报错信息进行修改和调整。我们借鉴了这一机制，将其应用于大模型中，使大模型能够基于报错信息或其他反馈进行自我修正，从而提高命令生成的准确率。

04.大模型的协同工作

最后来讨论一下大模型的协同工作能力。协同能力的重要性超越了大模型本身智能水平或特定任务的评分。我们判断，当前大模型能力仍不足以完全替代目前较为成熟的知识工程流程。大模型追求的是“端到端”的解决方案，即从原始文档和用户问题直接输出答案。然而，传统的知识工程流程更为复杂，包括检索、知识抽取、构建知识库、检测一致性、调整知识库以及进行知识检索和推理等多个步骤。

大模型虽功能强大但成本高昂，并非所有流程都需其参与。从数据层面和应用特点出发，可以将任务分类。对于大部分任务，传统BERT 模型即可实现 80% 至 90% 的准确率，仅在处理极端复杂句子时，大模型才是不可或缺的。对于大量语料的知识抽取和初步验证，传统模型因其高效和低成本而更为合适。然而，在知识库纠错和常识检测等需要开放性和高级理解的环节，大模型则成为了唯一选择。因此，大模型与小模型应协同工作，如上图中的两个典型例子，要根据任务需求去适配并执行一个流程。

为什么要这样设计？关键要明确大模型适用的任务。大模型的作用主要体现在三个方面：首先，它拥有不可替代的常识验证和推理能力；其次，作为高准确率的保底或教师方案，大模型能用于构建数据或指导小模型；最后，大模型是目前最强大的 Few-shot Learner，支持通过 Few-shot 方案进行微调。

第一个工作针对知识抽取，虽是一个传统的 NLP 任务，但可以发现大模型在知识抽取中面临特定挑战。不同于其他 UIE（通用信息抽取）方法，大模型关注于对齐能力而非单纯的抽取能力。例如，在 NER 任务中需要决定“中山公园”中的“孙中山”是否应被抽取为实体，这取决于数据集和应用场景。为了应对这种细微差别，我们微调了一个抽取模型底座，该底座集成了多种抽取任务。然而，这个模型底座在使用前需要针对应用场景进行对齐，确保其准确捕捉特定需求。在新闻人物信息抽取任务中，仅使用 300 条数据微调达到了 92% 的准确率；而使用 ChatGPT 仅有 60% 准确率，这主要由于 prompt 很难准确描述抽取的具体细节要求。

第二个工作是针对一个综合的知识抽取任务，融合了实体抽取、实体对齐和实体关系抽取等多个子任务。这些子任务在大小模型上的适应性各不相同。通过适当选择，部分使用大模型，部分使用小模型，能够实现既超越大模型又优于单独小模型 SOTA 的结果。

第三个工作是利用大模型进行常识验证，通过构建特定的 prompt 将相关证据组合，让大模型判断其中是否存在常识错误。这种方法超越了传统规则推理的局限，能够提供更为准确的推理结果。

大模型在特定领域应用中并非能力不足，而是缺乏与领域的协同性。对于特殊需求，如 NL to SQL，需要通过微调使大模型适应特定任务。例如，在理解“基金表现最好”时，若未被告知其特定业务含义，大模型可能不准确。因此，需要在特定领域微调大模型。我们的做法是反向利用表格生成自然语言描述，再通过业务和产品经理的规则修正，最后训练模型以学习这些特定知识。除非面对极端复杂问题，否则大部分大模型的智能水平是足够的，关键在于任务协同和与现有流程的对齐。

尽管在大模型上下文长度非常长的情况下，检索后回答 RAG 在当前大模型时代仍显重要。由于成本考虑，不是所有问题都适合用大模型处理大量 token。目前常用下拉数据库或单数据缺口方法，但在专业领域需要精确匹配。稀疏检索（如 BM25）在常见精确问题中效果好但缺乏语义泛化性，而稠密检索（如 BGE）虽效果好但易召回语义相近但不准确的内容。因此，我们致力于融合这两种方法，根据问题中是否含有专有名词来决定检索策略。若问题中专有名词分数高，则增加稀疏检索比重，来提升领域任务的检索效果。

最后关于 RAG，聚焦于 AIGC 的可靠性问题。当前，即使大模型展现出高度智能，人们对其答案的准确性仍持怀疑态度，形成了所谓的“狼来了”现象。因此，在专业领域，我们强调只有可溯源的结果才能赢得用户的信任。RAG 系统要实现大模型在回答问题时能够引用原文，确保答案的可靠性和准确性。以 New Bing 的精确模式为例，即使搜索的网页内容正确，其答案仍可能出错。

我们的工作思路是采用解码硬约束方案，通过在微调阶段给大模型标记特殊括号，实现特定部分的直接原文接管。一旦特殊括号标记出现，其后的内容将直接由算法接管，借助原文后缀树进行填充，确保该部分与原文完全一致。这种方法确保了两个标记间的内容为原文内容，同时利用模型的推理能力生成答案，避免了传统方法的生硬和推理能力低下的问题。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐