• [论文翻译]当BERT玩起彩票时 所有彩票都是中奖票

    基于Transformer的大型模型可被缩减至更少的自注意力头和层数。我们从彩票假设(lottery ticket hypothesis)角度研究这一现象,结合结构化剪枝和幅度剪枝方法。针对微调后的BERT模型,我们发现:(a) 存在能达到与完整模型相当性能的子网络,(b) 从模型其他部分采样的同等规模子网络表现更差。值得注意的是,即使采用结构化剪枝得到的最差子网络仍保持高度可训练性,这表明多数预训练BERT权重都具有潜在价值。我们还研究了"优质"子网络,试图将其成功归因于更优的语言学知识,但发现这些子网络具有不稳定性,且无法通过有意义的自注意力模式来解释。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理