• [论文翻译]LAMBDA NETWORKS:无需注意力机制的长程交互建模

    LAMBDA NETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION LAMBDA NETWORKS:无需注意力机制的长程交互建模 Irwan Bello Google Research, Brain team ibello@google.com Irwan Bello Google Research, Brain团队 ibello@google.com ABSTRACT 摘要 We present lambda layers – an al... 我们提出lambda层——一种替代自注意力(self-attention)的框架——用于捕获输入与结构化上下文信息之间的长程交互(例如被其他像素包围的单个像素)。lambda层通过将可用上下文转换为线性函数(称为lambda)并分别对每个输入应用这些线性函数,来实现此类交互建模。与线性注意力类似,lambda层绕过了昂贵的注意力图计算,但不同之处在于它们同时建模基于内容和位置的交互,这使得其能够处理图像等大型结构化输入。由此构建的神经网络架构Lambda Networks在ImageNet分类、COCO目标检测和COCO实例分割任务上显著优于卷积和注意力基线模型,同时具有更高的计算效率。此外,我们设计了Lambda Res Nets这一跨不同尺度的混合架构家族,显著改善了图像分类模型的速度-精度权衡。Lambda Res Nets在现代机器学习加速器上比流行的Efficient Nets快\$3.2\cdot4.4\mathrm{x}\$倍的同时,在ImageNet上达到了优异精度。当使用额外1.3亿张伪标注图像进行训练时,Lambda Res Nets相比对应EfficientNet检查点实现了高达\$\mathbf{9.5x}\$的加速[1]。
  • [论文翻译]基于Transformer的端到端目标检测

    我们提出了一种新方法,将目标检测视为直接的集合预测问题。我们的方法简化了检测流程,有效消除了对许多手工设计组件的需求,例如非极大值抑制过程或锚点生成,这些组件显式编码了我们对任务的先验知识。新框架名为DEtection TRansformer(DETR),其核心组成部分是基于集合的全局损失(通过二分匹配强制实现唯一预测)和Transformer编码器-解码器架构。给定一组固定的学习对象查询(object queries),DETR通过分析对象间关系及全局图像上下文,直接并行输出最终的预测集合。与许多现代检测器不同,该新模型概念简单且无需专用库支持。在具有挑战性的COCO目标检测数据集上,DETR的精度和运行时性能与经过高度优化的Faster RCNN基准相当。此外,DETR能够以统一方式轻松泛化以实现全景分割。实验表明其显著优于竞争基线。训练代码和预训练模型详见https://github.com/facebookresearch/detr。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理