BART论文解读：BERT和GPT结合起来会发生什么？

本文介绍: 为了与当前摘要任务的最新技术进行比较，我们在两个具有不同特点的摘要数据集CNN/DailyMail和XSum上展示了结果。CNN/DailyMail中的摘要倾向于与源句子相似。抽取式模型在这里做得很好，甚至仅用前三个源句子作为基线的表现也非常有竞争力。尽管如此，BART在所有已有的工作中表现最好。相比之下，XSum高度概括，抽取式模型表现不佳。BART在所有ROUGE指标上大约比利用BERT的最佳前作提高了6.0分，这代表了在这一问题上性能的重大进步。在质量上，样本的质量很高（见第6节）。

图 1：BART 与 BERT和的示意性比较。

BART 是一个去噪自编码器，它将受损的文档映射回其来源的原始文档。这个模型以序列到序列的形式实现，具有对受损文本的双向编码器和一个从左到右的自回归解码器。在预训练阶段，我们优化原始文档的负对数似然。

BART 使用了标准的序列到序列变换器（Transformer）架构，但是有所改动。继承自GPT的一个修改是，它将ReLU激活函数替换为GeLUs（Hendrycks & Gimpel, 2016），并且将参数初始化为N(0, 0.02)。在我们的基础模型中，编码器和解码器各使用了6层，而在我们的大型模型中，每个部分各使用了12层。这种架构与BERT使用的架构密切相关，但存在以下差异：（1）解码器的每一层还会对编码器的最后一个隐藏层进行交叉关注（如在Tansformer sequence-to-sequence模型中所做的那样）；以及（2）BERT在单词预测前使用了一个额外的前馈网络，而BART没有使用。总体而言，BART比同等大小的BERT模型包含大约多10%的参数。

BART 通过破坏文档然后优化重建损失来进行训练，重建损失是解码器输出和原始文档之间的交叉熵。不同于现有的针对特定噪声方案定制的去噪自编码器，BART 允许我们应用任何类型的文档破坏方式。在极端情况下，即源信息完全丢失时，BART 相当于一个语言模型。

我们试验了几种先前提出的和新颖的转换方法，但我们认为开发其他新的替代方案仍有重大潜力。我们使用的转换方法在下面进行了总结，示例显示在图2中。

图 2：我们实验的输入噪声的转换。这些变换可以组合起来。