[论文翻译]通过数据回响加速神经网络训练

在摩尔定律逐渐失效的今天，GPU和其他专用硬件加速器已显著加快了神经网络训练速度。然而训练流程的早期阶段（如磁盘I/O和数据预处理）并未在加速器上运行。随着加速器性能持续提升，这些前期阶段将日益成为瓶颈。本文提出"数据回响(data echoing)"技术，通过减少前期流程阶段的总计算量来加速训练，尤其适用于加速器上游计算占主导的情况。该技术通过复用（或称"回响"）前期流程的中间输出来回收闲置算力。我们研究了不同数据回响算法在各种工作负载、不同回响次数及不同批次规模下的表现，发现所有实验场景中至少存在一种算法能以更少的上游计算量达到基准模型的预测性能。当通过网络读取ImageNet训练数据时，我们在ResNet-50上实测获得了3.25倍的墙钟时间缩短。