• [论文翻译]鲁棒行人搜索预训练的交换路径网络

    在行人搜索任务中,我们通过检测和排序图库场景中与查询人物图像的匹配项来实现目标。大多数行人搜索模型采用特征提取主干网络,后接独立的检测和重识别头部模块。尽管视觉主干网络的预训练方法已较为成熟,但针对行人搜索任务额外模块的预训练此前尚未得到研究。本文提出了首个端到端行人搜索预训练框架,将方法分为以目标为中心和以查询为中心两种范式,并证明以查询为中心的框架对标签噪声具有鲁棒性,仅需弱标注的人物边界框即可训练。此外,我们提出名为交换路径网络 (SPNet) 的新型模型,该模型同时实现以查询为中心和以目标为中心的训练目标,并能保持权重不变的情况下切换两种模式。实验表明:SPNet采用以查询为中心的预训练后接以目标为中心的微调策略,在PRW和CUHK-SYSU基准测试中分别取得61.2%和96.4%的mAP值,达到当前最优水平。相比近期仅针对主干网络的预训练方案,我们的方法在行人搜索预训练中展现出更高效率、更强效果及更优鲁棒性。
  • [论文翻译]基于解耦视频分割的通用目标追踪

    视频分割的训练数据标注成本高昂,这阻碍了端到端算法在新视频分割任务中的扩展,尤其是在大词汇量场景下。为了实现"追踪万物"而无需针对每项任务单独训练视频数据,我们开发了一种解耦视频分割方法(DEVA),该方法由任务专用的图像级分割和类别/任务无关的双向时序传播组成。得益于这一设计,我们仅需为目标任务训练一个图像级模型(训练成本更低)和一个通用时序传播模型(只需训练一次即可跨任务泛化)。为有效整合这两个模块,我们采用双向传播技术对不同帧的分割假设进行(半)在线融合,从而生成连贯的分割结果。实验表明,在包括大词汇量视频全景分割、开放世界视频分割、指代视频分割和无监督视频目标分割等多个数据稀缺任务中,这种解耦方案优于端到端方法。代码已开源:hkchengrex.github.io/Tracking-Anything-with-DEVA。
  • [论文翻译]高光谱MAE:基于傅里叶编码双分支掩码自编码器的高光谱图像分类模型

    摘要—高光谱图像提供了丰富的光谱细节,但由于其在空间和光谱维度上的高复杂性,也带来了独特的挑战。为此,我们提出了高光谱MAE (Hyper spectral MAE),这是一种基于Transformer的高光谱数据基础模型,其特点是在预训练过程中采用双重掩码策略,随机遮挡50%的空间块和50%的光谱波段。这迫使模型通过重建两个维度上缺失的信息来学习有意义的表征。我们引入了一种基于可学习谐波傅里叶分量的光谱波长位置嵌入,以编码每个光谱波段的身份,确保模型对光谱顺序和间距敏感。重建目标采用了均方误差(MSE)和光谱角制图(SAM)相结合的复合损失,以平衡像素级精度和光谱形状保真度。
  • [论文翻译]SwapNet: 基于图像的服装迁移

    摘要。我们提出Swapnet框架,用于在任意身体姿态、形状和着装的真人图像间实现服装迁移。服装迁移是一项具有挑战性的任务,需要:(i) 从身体姿态和形状中解耦服装特征;(ii) 在新身体上实现服装纹理的真实合成。我们提出一种神经网络架构,通过两个任务专用子网络分别解决这些子问题。由于获取同一服装在不同身体上成对图像的难度较大,我们提出一种新颖的弱监督方法,通过数据增强从单张图像生成训练对。我们首次实现了非约束图像中完全自动化的服装迁移,而无需解决复杂的3D重建问题。通过多样化的迁移结果展示,我们突显了相较于传统图像到图像和类比流程的优势。
  • [论文翻译]基于ResUnet的解剖脑屏障分割

    脑结构的精度细分可能有助于胶质瘤和放射治疗计划。然而,由于不同方式之间的视觉和解剖差异,脑结构的准确分割变得具有挑战性。为了解决这个问题,我们首先使用深度编码器和浅层解码器构建基于残差的U形网络,可以缩短框架性能和效率。然后,我们介绍了TVERSKYdropout来解决不同前景和背景类之间的类别不平衡问题。最后,利用模型集合策略来消除异常值并进一步提高性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理