本文介绍: TRL是一个全栈库,提供了通过强化学习来训练transformer语言模型一系列工具,包括从监督微调步骤(SFT)、奖励建模步骤(RM)到近端策略优化(PPO)步骤。AutoTrain是一种无代码工具,用于为自然语言处理(NLP)任务、计算机视觉(CV)任务、语音任务甚至表格任务训练最先进的模型。: 如果要存储微调好的模型到Hugging Face,需要指定repository ID。: 指定微调所需要的数据,可以使用huggingface上的数据集。: 设置模型最大上下文窗口。: 需要微调的基础模型。
本文将介绍两种开源工具来微调LLAMA-2。
一、使用autotrain-advanced微调LLAMA-2
AutoTrain是一种无代码工具,用于为自然语言处理(NLP)任务、计算机视觉(CV)任务、语音任务甚至表格任务训练最先进的模型。
1) 安装相关库,使用huggingface_hub下载微调数据
2) 更新autotrain-advanced所需要的包
3) 登录Huggingface
4) 开始微调LLAMA-2
核心参数含义:
llm: 微调模型的类型
— project_name: 项目名称
— model: 需要微调的基础模型
下面看一个具体的示例:
二、使用TRL微调LLAMA-2
1)安装相关的库
2)从Huggingface导入数据集
3)量化配置,从Huggingface下载模型
4)下载Tokenizer
5)创建PEFT配置
6)创建微调和训练配置
7)创建SFTTrainer配置
8)在微调的时候,对LN层使用float 32训练更稳定
9)开始微调
10)保存微调好的模型
11)加载微调好的模型
12)测试微调好的模型效果
参考文献:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。