基于感知的扩散语言模型剪枝
扩散语言模型(DLMs)由于迭代降噪而产生了高昂的推理成本,这促使了高效剪枝的出现。现有的剪枝启发式方法大多自回归(AR)语言模型,通常保留注意力汇聚(sink)标记,因为AR汇聚在模型中充当稳定的全局锚点。我们表明,对于DLMs来说,这一假设并不成立:注意力汇聚的位置在整个生成轨迹上表现出显著更高的方差(通过主导汇聚位置随时间步长的变化来衡量),这表明汇聚往往是短暂的,在结构上不如AR模型中的那样至关重要。基于这一观察,我们提出了${\bf \texttt{Sink-Aware Pruning}}$,该算法能自动识别并剪枝DLM中的不稳定汇聚(以往的研究通常保留汇聚以用于AR语言模型)。无需重新训练,我们的方法在匹配的计算能力下实现了更好的质量-效率权衡,并优于强大的先前剪枝基线。我们的代码可在
赞
评论
请
登录后发表观点
