[论文翻译]当BERT玩起彩票时所有彩票都是中奖票

基于Transformer的大型模型可被缩减至更少的自注意力头和层数。我们从彩票假设(lottery ticket hypothesis)角度研究这一现象，结合结构化剪枝和幅度剪枝方法。针对微调后的BERT模型，我们发现：(a) 存在能达到与完整模型相当性能的子网络，(b) 从模型其他部分采样的同等规模子网络表现更差。值得注意的是，即使采用结构化剪枝得到的最差子网络仍保持高度可训练性，这表明多数预训练BERT权重都具有潜在价值。我们还研究了"优质"子网络，试图将其成功归因于更优的语言学知识，但发现这些子网络具有不稳定性，且无法通过有意义的自注意力模式来解释。