[AI写作]为什么Transformer训练这么慢?一个聪明的加速技巧,让它快了20多倍
你有没有算过,训练一个大模型要花多少钱?我们都知道,Transformer已经统治了AI世界,从ChatGPT到GPT-4,从BERT到各种大模型,都离不开它。但这东西有个特别扎心的问题——特别能吃算力。一个1.5B的语言模型,从零开始训练要烧好几千块钱的GPU时间。有没有办法在不改变模型本质的前提下,把训练速度提上来呢?最近,一篇来自学术界的论文给出了一个出乎意料的答案:在Transformer的线性层里加一个小小的非线性分支。这个叫NOBLE的方法,通过简单的架构改动,能把训练速度提升20-35%。更关键的是,它不是什么花里胡哨的微调技巧,而是从头开始就能用的永久性改进。接下来,咱们就聊聊这套方案到底是怎么回事。

