• [论文翻译]Synthesizer: 重新思考Transformer模型中的自注意力机制

    点积自注意力 (dot product self-attention) 机制被认为是当前最先进 Transformer 模型的核心且不可或缺的组成部分。但它真的必不可少吗?本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献。通过大量实验,我们发现:(1) 随机对齐矩阵的表现出人意料地具有竞争力;(2) 从 token-token (query-key) 交互中学习注意力权重虽然有用,但最终并不那么重要。为此,我们提出了 SYNTHESIZER——一种无需 token-token 交互即可学习合成注意力权重的模型。在实验中,我们首先证明:与原始 Transformer 模型相比,简单的 Synthesizer 在机器翻译、语言建模、文本生成以及 GLUE/SuperGLUE 基准测试等一系列任务中均能实现极具竞争力的性能。当与点积注意力结合使用时,Synthesizer 始终优于 Transformer。此外,我们将 Synthesizer 与动态卷积 (Dynamic Convolutions) 进行对比,结果表明简单的随机 Synthesizer 不仅速度快 60%,还能将困惑度相对降低 3.5%。最后,我们证明在纯编码任务中,简单的因子分解 Synthesizer 可以超越 Linformer。
  • [论文翻译]当BERT玩起彩票时 所有彩票都是中奖票

    基于Transformer的大型模型可被缩减至更少的自注意力头和层数。我们从彩票假设(lottery ticket hypothesis)角度研究这一现象,结合结构化剪枝和幅度剪枝方法。针对微调后的BERT模型,我们发现:(a) 存在能达到与完整模型相当性能的子网络,(b) 从模型其他部分采样的同等规模子网络表现更差。值得注意的是,即使采用结构化剪枝得到的最差子网络仍保持高度可训练性,这表明多数预训练BERT权重都具有潜在价值。我们还研究了"优质"子网络,试图将其成功归因于更优的语言学知识,但发现这些子网络具有不稳定性,且无法通过有意义的自注意力模式来解释。
  • [论文翻译]Jukebox: 一种音乐生成模型

    我们推出Jukebox,这是一种在原始音频领域生成带人声音乐的模型。我们采用多尺度VQ-VAE(向量量化变分自编码器)压缩原始音频的长上下文为离散编码,并通过自回归Transformer进行建模。研究表明,这种规模化组合模型能生成保真度高且多样化的歌曲,其连贯性可达数分钟。该模型可通过艺术家和流派条件控制音乐与人声风格,并利用未对齐歌词增强演唱可控性。我们公开了数千个未经人工筛选的样本,同时开放模型权重和代码。
  • [论文翻译]在提供适当署名的情况下,Google特此授权允许复制本文中的表格和图形,仅限用于新闻或学术作品。

    主流的序列转换模型基于复杂的循环或卷积神经网络,这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,完全基于注意力机制,彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明,该模型在质量上更优,同时具有更高的并行化能力,且训练时间显著缩短。我们的模型在WMT 2014英德翻译任务上取得了28.4 BLEU值,比现有最佳结果(包括集成模型)提高了超过2 BLEU。在WMT 2014英法翻译任务中,我们的模型在8块GPU上训练3.5天后,以41.8 BLEU创造了新的单模型最优成绩,其训练成本仅为文献中最佳模型的一小部分。通过成功应用于英语成分句法分析(无论训练数据量大小),我们证明Transformer能很好地泛化至其他任务。
  • [论文翻译]Slim attention: 无需损失精度,将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部

    Slim attention 通过将上下文内存大小缩小 \$2\mathbf{x}\$ 来优化带有 MHA(多头注意力机制)的 Transformer 模型,这可以在大上下文窗口的情况下将推理速度提升至多 \$2\mathbf{x}\$。Slim attention 是标准注意力机制的精确数学等价实现,因此不会影响模型的准确性。换句话说,Slim attention 无损地将上下文内存压缩了 2 倍。对于编码器-解码器 Transformer,上下文内存大小可以进一步减少:例如,对于 Whisper 模型,Slim attention 将上下文内存减少了 8 倍,这可以在批量大小为 64 的情况下将 Token 生成速度提升 \$\operatorname{5x}\$。对于 MHA 投影维度大于 \$d_{\mathrm{model}}\$ 的罕见情况,例如 T5-11B 模型,内存可以减少 32 倍。代码和更多 Transformer 技巧请参见 [1],关于本文的 YouTube 视频请参见 [2]。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理