[论文翻译]面向情感识别的通用视听学习
当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统,即使在仅有一种模态可用时仍能工作,并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战,实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时,鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL),可处理单模态和多模态系统,适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。