基于感知的扩散语言模型剪枝

扩散语言模型（DLMs）由于迭代降噪而产生了高昂的推理成本，这促使了高效剪枝的出现。现有的剪枝启发式方法大多自回归（AR）语言模型，通常保留注意力汇聚（sink）标记，因为AR汇聚在模型中充当稳定的全局锚点。我们表明，对于DLMs来说，这一假设并不成立：注意力汇聚的位置在整个生成轨迹上表现出显著更高的方差（通过主导汇聚位置随时间步长的变化来衡量），这表明汇聚往往是短暂的，在结构上不如AR模型中的那样至关重要。基于这一观察，我们提出了${\bf \texttt{Sink-Aware Pruning}}$，该算法能自动识别并剪枝DLM中的不稳定汇聚（以往的研究通常保留汇聚以用于AR语言模型）。无需重新训练，我们的方法在匹配的计算能力下实现了更好的质量-效率权衡，并优于强大的先前剪枝基线。我们的代码可在