[论文翻译]基于Transformer的端到端目标检测
我们提出了一种新方法,将目标检测视为直接的集合预测问题。我们的方法简化了检测流程,有效消除了对许多手工设计组件的需求,例如非极大值抑制过程或锚点生成,这些组件显式编码了我们对任务的先验知识。新框架名为DEtection TRansformer(DETR),其核心组成部分是基于集合的全局损失(通过二分匹配强制实现唯一预测)和Transformer编码器-解码器架构。给定一组固定的学习对象查询(object queries),DETR通过分析对象间关系及全局图像上下文,直接并行输出最终的预测集合。与许多现代检测器不同,该新模型概念简单且无需专用库支持。在具有挑战性的COCO目标检测数据集上,DETR的精度和运行时性能与经过高度优化的Faster RCNN基准相当。此外,DETR能够以统一方式轻松泛化以实现全景分割。实验表明其显著优于竞争基线。训练代码和预训练模型详见https://github.com/facebookresearch/detr。