[论文翻译]STM: 用于动作识别的时空与运动编码

空间时序特征和运动特征是视频动作识别中两个互补且关键的信息。当前最先进的方法采用3D CNN流来学习空间时序特征，并用另一个光流流来学习运动特征。本文旨在统一的2D框架中高效编码这两种特征。为此，我们首先提出了STM模块，其中包含用于表征空间时序特征的通道式空间时序模块(CSTM)和用于高效编码运动特征的通道式运动模块(CMM)。随后，我们通过引入极少的额外计算成本，将ResNet架构中的原始残差块替换为STM模块，构建了一个简单而高效的STM网络。大量实验表明，通过联合编码空间时序和运动特征，所提出的STM网络在时序相关数据集(即Something-Something v1 & v2和Jester)和场景相关数据集(即Kinetics400、UCF-101和HMDB-51)上均优于现有最优方法。