百度百舸平台的大模型训练最佳实践

本文介绍: 基于一些公开数据，像 GPT-4 这类千亿级别的大模型需要数万张 GPU 并行训练，当然还有配套的分布式存储和高速网络，这么复杂的系统可以平稳运行本身就是一个挑战，同时如何在故障发生时能快速精准定位，可以更快速的恢复，都是需要解决的核心问题。大模型参数多计算量大，听起来似乎和敏捷并没有太大关联，但是基于刚才介绍的大模型训练新范式，一方面模型本身的设计成本更低，另外一方面整个行业都在高速迭代中，所以需要基础设施具备快速构建能力，同时有比较低的学习成本，可以快速和开源生态对接，利用开源生态已有的能力。

今天的分享是百度智能云在 23 年夏季推出的「云智公开课 — AI 大底座系列」第 8 期，也是本次活动的最后一期。前面 7 期的内容，我的同事对大模型场景涉及到的各个模块，从网络、计算、存储、向量数据库、AI 框架、LMOps 等维度，为大家做了一个全景的展示，分享了百度智能云在这些领域的技术积累和项目实践。

本次我的分享主题在技术上算是对前面内容的综合，将围绕百舸在大模型训练过程的稳定性设计和加速实践展开，包括以下 3 个部分：

下图列举了众多国产大模型，里面有通用的大模型，也有面向行业的垂类大模型，「百模大战」可见一斑。

为什么会在短期内出现这么多的大模型呢？这和大模型新的训练范式以及开源模型生态快速发展有极大关系。我列举了三种大模型的训练方式，从上往下看，成本由低到高变化。

首先是高效参数调优，也就是基于一个已有的通用大模型，使用少量有标注的数据，调整部分模型参数，得到符合面向特定场景的模型，具体的细分方法包括 Prefix-tuning，Prompt-tuning，LoRA 等。在第 7 期的公开课中已经给大家做了较为详细的介绍。

其次是 SFT 指令微调，也就是使用少量或者中量的有标注数据，对通用大模型做全量参数的调整。由于市面上有比较多的像 Llama、GLM 等优秀的开源大模型以及像百度文心系列商业大模型，所以很多客户会选择这种方案来构建自己的行业大模型。