[论文翻译]当BERT玩起彩票时 所有彩票都是中奖票
基于Transformer的大型模型可被缩减至更少的自注意力头和层数。我们从彩票假设(lottery ticket hypothesis)角度研究这一现象,结合结构化剪枝和幅度剪枝方法。针对微调后的BERT模型,我们发现:(a) 存在能达到与完整模型相当性能的子网络,(b) 从模型其他部分采样的同等规模子网络表现更差。值得注意的是,即使采用结构化剪枝得到的最差子网络仍保持高度可训练性,这表明多数预训练BERT权重都具有潜在价值。我们还研究了"优质"子网络,试图将其成功归因于更优的语言学知识,但发现这些子网络具有不稳定性,且无法通过有意义的自注意力模式来解释。