Transformer 模型 - 文章

[论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制

点积自注意力 (dot product self-attention) 机制被认为是当前最先进 Transformer 模型的核心且不可或缺的组成部分。但它真的必不可少吗？本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献。通过大量实验，我们发现：(1) 随机对齐矩阵的表现出人意料地具有竞争力；(2) 从 token-token (query-key) 交互中学习注意力权重虽然有用，但最终并不那么重要。为此，我们提出了 SYNTHESIZER——一种无需 token-token 交互即可学习合成注意力权重的模型。在实验中，我们首先证明：与原始 Transformer 模型相比，简单的 Synthesizer 在机器翻译、语言建模、文本生成以及 GLUE/SuperGLUE 基准测试等一系列任务中均能实现极具竞争力的性能。当与点积注意力结合使用时，Synthesizer 始终优于 Transformer。此外，我们将 Synthesizer 与动态卷积 (Dynamic Convolutions) 进行对比，结果表明简单的随机 Synthesizer 不仅速度快 60%，还能将困惑度相对降低 3.5%。最后，我们证明在纯编码任务中，简单的因子分解 Synthesizer 可以超越 Linformer。

由卡汁发布于 2025-04-03 13:01:08 点积自注意力机械Transformer 模型Synthesizer 阅读次数 457
[论文翻译]当BERT玩起彩票时所有彩票都是中奖票

基于Transformer的大型模型可被缩减至更少的自注意力头和层数。我们从彩票假设(lottery ticket hypothesis)角度研究这一现象，结合结构化剪枝和幅度剪枝方法。针对微调后的BERT模型，我们发现：(a) 存在能达到与完整模型相当性能的子网络，(b) 从模型其他部分采样的同等规模子网络表现更差。值得注意的是，即使采用结构化剪枝得到的最差子网络仍保持高度可训练性，这表明多数预训练BERT权重都具有潜在价值。我们还研究了"优质"子网络，试图将其成功归因于更优的语言学知识，但发现这些子网络具有不稳定性，且无法通过有意义的自注意力模式来解释。

由卡汁发布于 2025-03-30 00:35:45 Transformer 模型BERT模型结构化剪枝和幅度剪枝阅读次数 411
[论文翻译]Jukebox: 一种音乐生成模型

我们推出Jukebox，这是一种在原始音频领域生成带人声音乐的模型。我们采用多尺度VQ-VAE（向量量化变分自编码器）压缩原始音频的长上下文为离散编码，并通过自回归Transformer进行建模。研究表明，这种规模化组合模型能生成保真度高且多样化的歌曲，其连贯性可达数分钟。该模型可通过艺术家和流派条件控制音乐与人声风格，并利用未对齐歌词增强演唱可控性。我们公开了数千个未经人工筛选的样本，同时开放模型权重和代码。

由卡汁发布于 2025-03-27 16:04:22 VQ-VAETransformer 模型阅读次数 431
[论文翻译]在提供适当署名的情况下，Google特此授权允许复制本文中的表格和图形，仅限用于新闻或学术作品。

主流的序列转换模型基于复杂的循环或卷积神经网络，这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，完全基于注意力机制，彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明，该模型在质量上更优，同时具有更高的并行化能力，且训练时间显著缩短。我们的模型在WMT 2014英德翻译任务上取得了28.4 BLEU值，比现有最佳结果（包括集成模型）提高了超过2 BLEU。在WMT 2014英法翻译任务中，我们的模型在8块GPU上训练3.5天后，以41.8 BLEU创造了新的单模型最优成绩，其训练成本仅为文献中最佳模型的一小部分。通过成功应用于英语成分句法分析（无论训练数据量大小），我们证明Transformer能很好地泛化至其他任务。

由卡汁发布于 2025-03-27 15:04:11 神经网络Transformer 模型阅读次数 405
[论文翻译]Slim attention: 无需损失精度，将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部

Slim attention 通过将上下文内存大小缩小 \$2\mathbf{x}\$ 来优化带有 MHA（多头注意力机制）的 Transformer 模型，这可以在大上下文窗口的情况下将推理速度提升至多 \$2\mathbf{x}\$。Slim attention 是标准注意力机制的精确数学等价实现，因此不会影响模型的准确性。换句话说，Slim attention 无损地将上下文内存压缩了 2 倍。对于编码器-解码器 Transformer，上下文内存大小可以进一步减少：例如，对于 Whisper 模型，Slim attention 将上下文内存减少了 8 倍，这可以在批量大小为 64 的情况下将 Token 生成速度提升 \$\operatorname{5x}\$。对于 MHA 投影维度大于 \$d_{\mathrm{model}}\$ 的罕见情况，例如 T5-11B 模型，内存可以减少 32 倍。代码和更多 Transformer 技巧请参见 [1]，关于本文的 YouTube 视频请参见 [2]。

由 shadow发布于 2025-03-19 11:36:10 大模型论文Transformer 模型阅读次数 784

[论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制

[论文翻译]当BERT玩起彩票时 所有彩票都是中奖票

[论文翻译]Jukebox: 一种音乐生成模型

[论文翻译]在提供适当署名的情况下，Google特此授权允许复制本文中的表格和图形，仅限用于新闻或学术作品。

[论文翻译]Slim attention: 无需损失精度，将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部

[论文翻译]当BERT玩起彩票时所有彩票都是中奖票