面部动作单元 (AU) 检测因其能将复杂面部表情分解为独立的肌肉运动而受到广泛关注。本文重新审视了AU检测中的两个关键因素:多样化的大规模数据和主体身份正则化。受基础模型 (foundation model) 近期进展的启发,我们强调了数据的重要性,并推出了Face9M数据集——该数据集整合了来自多个公开来源的900万张面部图像,具有高度多样性。在Face9M上预训练掩码自编码器 (masked auto encoder) 在AU检测和面部表情任务中展现出强劲性能。更重要的是,我们发现身份对抗训练 (Identity Adversarial Training, IAT) 在AU任务中尚未得到充分探索。为此我们首先论证了:AU数据集中的主体身份会导致模型陷入捷径学习 (shortcut learning),从而产生次优的AU预测方案;其次证明了强IAT正则化对学习身份无关特征的必要性;最后系统阐释了IAT的设计空间,并通过实验验证IAT能有效规避基于身份的捷径学习,获得更优解。我们提出的面部掩码自编码器 (Facial Masked Auto encoder, FMAE) 和IAT方法兼具简洁性、通用性和高效性。