大语言模型系列-T5_代码007(未授权)

本文介绍: 目前已经讲解了目前LLM的三大流派的两个起始模型：GPT-1（Decoder only）、BERT（Encoder only），但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改（如添加一些线性层），Google经过庞大的预训练，最终提出了一个通用框架T5模型（Encoder-Decoder），将所有NLP任务转化为text to text任务，微调时无需再修改模型，直接在原模型上微调即可。ps：T5最核心的理念是：使用前缀任务声明及文本答案生成，统一所有自然语言处理任务的输入和输出。

目前已经讲解了目前LLM的三大流派的两个起始模型：GPT-1（Decoder only）、BERT（Encoder only），但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改（如添加一些线性层），Google经过庞大的预训练，最终提出了一个通用框架T5模型（Encoder-Decoder），将所有NLP任务转化为text to text任务，微调时无需再修改模型，直接在原模型上微调即可。

下图所示为T5的输入格式和输出格式。绿色部分表示翻译任务，红色和黄色部分分别表示CoLA（单句分类）和STS-B（文本语义相似度）任务，蓝色部分表示摘要生成任务，左侧的框表示T5的输入样例，右侧的框则是对应的输出结果。
在这里插入图片描述
T5唯一需要做的就是在输入数据前加上任务声明前缀，如：