[论文翻译]穿越拥挤山谷的下降——深度学习优化器基准测试
Descending through a Crowded Valley — Benchmarking Deep Learning Optimizers
穿越拥挤山谷的下降——深度学习优化器基准测试
Robin M. Schmidt * 1 Frank Schneider * 1 Philipp Hennig 1
Robin M. Schmidt * 1 Frank Schneider * 1 Philipp Hennig 1
Abstract
摘要
1. Introduction
1. 引言
Choosi...
选择优化器被认为是深度学习中最关键的设计决策之一,且并非易事。当前不断增长的文献已列出数百种优化方法。在缺乏明确理论指导和决定性实证证据的情况下,决策往往基于经验之谈。本研究中,我们试图用证据支持的启发式方法(即便不是决定性排名)来替代这些经验性结论。为此,我们对15种特别流行的深度学习优化器进行了广泛、标准化的基准测试,同时对各类可选方案进行了简明概述。通过分析超过50,000次独立运行实验,我们得出以下三点结论:(i) 优化器性能在不同任务间差异显著;(ii) 使用默认参数评估多个优化器的效果,与调优单个固定优化器的超参数效果相当;(iii) 虽然未发现某种优化方法在所有测试任务中明显占优,但我们确定了一个显著精简的优化器子集及参数组合,这些选择在实验中普遍能产生有竞争力的结果:ADAM仍是强有力的竞争者,新方法未能显著且持续地超越它。我们的开源成果1可作为经过严格调优的基准,用于更有效评估新型优化方法,且无需额外计算开销。