二、微调 LLM 的 5 种方法

图片

这张图展示了微调大语言模型(LLM)的 5 种常见方法,都是在原模型权重 冻结不变的前提下,添加少量可训练参数,以实现高效低成本微调的技术方案。我们逐一讲解每种方法的原理与差异:

背景知识:为什么要用这些技术?

传统的 LLM 微调需要训练数百亿参数,非常耗费资源。LoRA 系列方法通过只训练少量附加参数,让微调变得高效、便宜且更易迁移。

1)LoRA(Low-Rank Adaptation)

原理

在不修改原模型参数 WWW 的前提下,用两个小矩阵:

在这里插入图片描述

对其进行低秩更新

在这里插入图片描述

关键点:

  • 只训练 A、B 两个小矩阵(参数少,效率高)
  • 原始权重 W 保持冻结
  • 应用于 Q/K/V/W 的线性层

2)LoRA-FA(Feature-Aware LoRA)

原理

与 LoRA 类似,也是插入两个低秩矩阵 A、B,但加入了特征感知(Feature-Aware)机制

特点

  • A、B 会根据输入特征动态调整;
  • 更适用于复杂任务中,提升泛化能力;
  • 类似条件适应(conditional adaptation)。

3)VeRA(Vector-based Rank Adaptation)

原理

VeRA 使用可训练向量(而不是矩阵)来构造 A、B,从而进一步减少参数量

特点

  • A、B 向量通过哈希或随机映射扩展为矩阵;
  • 进一步压缩参数;
  • 适合边缘设备部署;
  • 参数共享机制强。

4)Delta-LoRA

原理

在 LoRA 的基础上,引入原始权重变化的残差(delta)建模

在这里插入图片描述

其中:
在这里插入图片描述

特点

  • 不仅训练 LoRA 部分,还拟合权重变化;
  • 综合了显式残差与隐式低秩;
  • 精度提升但略增加训练成本。

5)LoRA+(LoRA Plus)

原理

几乎与原始 LoRA 一样,但 更新规则改进,为矩阵 B 提供更大的学习率(因为它影响更大)。

特点

  • 训练更新时对 A、B 使用不同的学习率;
  • 更高效训练、更快收敛;
  • 效果通常优于原始 LoRA。

6)5种方法总结对比表

方法 参数数量 训练速度 精度 原理特点
LoRA 低秩矩阵更新
LoRA-FA 较好 输入特征感知
VeRA 极少 极快 一般 向量构造矩阵
Delta-LoRA 更好 加入权重残差
LoRA+ 更好 更优更新策略

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐