基于感知的扩散语言模型剪枝

扩散语言模型(DLMs)由于迭代降噪而产生了高昂的推理成本,这促使了高效剪枝的出现。现有的剪枝启发式方法大多自回归(AR)语言模型,通常保留注意力汇聚(sink)标记,因为AR汇聚在模型中充当稳定的全局锚点。我们表明,对于DLMs来说,这一假设并不成立:注意力汇聚的位置在整个生成轨迹上表现出显著更高的方差(通过主导汇聚位置随时间步长的变化来衡量),这表明汇聚往往是短暂的,在结构上不如AR模型中的那样至关重要。基于这一观察,我们提出了${\bf \texttt{Sink-Aware Pruning}}$,该算法能自动识别并剪枝DLM中的不稳定汇聚(以往的研究通常保留汇聚以用于AR语言模型)。无需重新训练,我们的方法在匹配的计算能力下实现了更好的质量-效率权衡,并优于强大的先前剪枝基线。我们的代码可在
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行