[论文翻译]ARBEx: 基于注意力特征提取与可靠性平衡的鲁棒面部表情学习
摘要—本文提出ARBEx框架,这是一种由Vision Transformer驱动的新型注意力特征提取框架,通过可靠性平衡机制应对面部表情学习(FEL)任务中的类别分布不均、偏差和不确定性问题。我们整合了多种数据预处理与优化方法,结合基于窗口的交叉注意力ViT架构以充分挖掘数据潜力。在嵌入空间中引入可学习的锚点与标签分布,配合多头自注意力机制,通过可靠性平衡策略(该策略利用锚点、注意力分数和置信度值来增强标签预测的鲁棒性)优化弱预测场景下的性能。为确保正确标签分类并提升模型判别力,我们提出锚点损失函数以扩大锚点间距。此外,可训练的多头自注意力机制对精准标签识别具有关键作用。该方法为提升预测可靠性提供了核心要素,对最终预测能力产生显著正向影响。我们的自适应模型可与任何深度神经网络集成,以应对各类识别任务中的挑战。多场景实验表明,该策略性能优于当前最先进方法。