[论文翻译]鲁棒行人搜索预训练的交换路径网络
在行人搜索任务中,我们通过检测和排序图库场景中与查询人物图像的匹配项来实现目标。大多数行人搜索模型采用特征提取主干网络,后接独立的检测和重识别头部模块。尽管视觉主干网络的预训练方法已较为成熟,但针对行人搜索任务额外模块的预训练此前尚未得到研究。本文提出了首个端到端行人搜索预训练框架,将方法分为以目标为中心和以查询为中心两种范式,并证明以查询为中心的框架对标签噪声具有鲁棒性,仅需弱标注的人物边界框即可训练。此外,我们提出名为交换路径网络 (SPNet) 的新型模型,该模型同时实现以查询为中心和以目标为中心的训练目标,并能保持权重不变的情况下切换两种模式。实验表明:SPNet采用以查询为中心的预训练后接以目标为中心的微调策略,在PRW和CUHK-SYSU基准测试中分别取得61.2%和96.4%的mAP值,达到当前最优水平。相比近期仅针对主干网络的预训练方案,我们的方法在行人搜索预训练中展现出更高效率、更强效果及更优鲁棒性。