1、为了训练更多的数据、更大的模型,提出了并行训练框架。

2、并行的方式:数据并行、模型并行(张量并行、流水线并行)。

3、Megatron-LM 综合应用了数据并行(Data Parallelism),张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)。

4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer):显存优化的数据并行(data parallelism, DP)方案。

ZeRO将模型训练阶段,每张卡中显存内容分为两类:模型(参数、梯度、Adam状态)、剩余(激活值、临时缓冲区、显存碎片)。

猛猿-大模型预训练系列

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐