transformer剪枝论文汇总_代码007(未授权)

本文介绍: 预训练提高了模型在分类和生成任务的精度，但缺点是成本较高，性能慢；剪枝是一种减少模型大小的有效方法；论文引入了块剪枝方法，为了得到小且快的模型。通过将任意大小的块剪枝集成到运动剪枝微调范式中；实验在分类和生成任务，得到剪枝后的模型2.4x更快，74%更小的BERT在SQuAD v1，F1仅下降1%，与其他蒸馏模型相比速度更快，与其他剪枝模型相比模型更小。

《Block Pruning For Faster Transformers》
《为更快的transformer进行块修剪》

预训练提高了模型在分类和生成任务的精度，但缺点是成本较高，性能慢；
剪枝是一种减少模型大小的有效方法；
论文引入了块剪枝方法，为了得到小且快的模型。通过将任意大小的块剪枝集成到运动剪枝微调范式中；
实验在分类和生成任务，得到剪枝后的模型2.4x更快，74%更小的BERT在SQuAD v1，F1仅下降1%，与其他蒸馏模型相比速度更快，与其他剪枝模型相比模型更小。

在这里插入图片描述