[论文翻译]emoDARTS: 联合优化CNN与序列神经网络架构以实现卓越的语音情感识别
摘要—语音情感识别(SER)对于计算机理解人类交流中的情感至关重要。随着深度学习(DL)的最新进展,SER模型的性能得到了显著提升。然而,设计最优的DL架构需要专业知识和实验评估。幸运的是,神经架构搜索(NAS)为自动确定最佳DL模型提供了潜在解决方案。其中可微分架构搜索(DARTS)是一种特别高效的模型优化方法。本研究提出了emoDARTS,这是一种通过DARTS优化的联合CNN和序列神经网络(SeqNN: LSTM, RNN)架构,可提升SER性能。现有文献支持选择CNN与LSTM耦合来提高性能。