• [论文翻译]基于高阶结构的中层特征学习在可见光-红外行人重识别中的应用

    可见光-红外行人重识别(VI-ReID)旨在检索由可见光(VIS)和红外(IR)摄像头捕获的同一行人图像。现有VI-ReID方法忽略了特征的高阶结构信息,同时由于VIS和IR图像之间存在较大模态差异,较难学习到合理的共同特征空间。针对上述问题,我们提出了一种基于高阶结构的中间特征学习网络(HOS-Net)。具体而言,我们首先利用短长程特征提取(SLE)模块有效获取短程和长程特征。接着提出高阶结构学习(HSL)模块,基于白化超图网络成功建模每张行人图像不同局部特征间的高阶关系,极大缓解了模型坍塌问题并增强了特征表示能力。最后开发了共同特征空间学习(CFL)模块,通过对齐不同模态和范围的特征生成中间特征,进而学习判别性强且合理的共同特征空间。特别提出模态-范围身份中心对比(MRIC)损失函数,缩小VIS、IR与中间特征之间的距离,使训练过程更加平滑。在SYSU-MM01、RegDB和LLCM数据集上的大量实验表明,我们的HOS-Net取得了最先进的性能。代码已开源在https://github.com/Julaucong/HOS-Net。
  • [论文翻译]TDSM: 零样本动作识别中骨架-文本匹配的三重扩散方法

    我们首先提出了一种基于扩散 (diffusion) 的零样本 (zero-shot) 骨骼动作识别方法。在零样本骨骼动作识别中,将骨骼特征与动作标签的文本特征对齐对于准确预测未见动作至关重要。先前的方法侧重于骨骼与文本潜在空间之间的直接对齐,但这些空间之间的模态差异阻碍了鲁棒的泛化学习。受文本到图像 (text-to-image) 扩散模型卓越性能的启发,我们主要利用其在反向扩散 (reverse diffusion) 训练过程中对不同模态的对齐能力,而非依赖其生成能力。基于此,我们的框架设计为一种用于骨骼-文本匹配的三元组扩散方法 (Triplet Diffusion for Skeleton-Text Matching, TDSM),通过反向扩散将骨骼特征与文本提示 (text prompts) 对齐,并将提示嵌入统一的骨骼-文本潜在空间以实现鲁棒匹配。为了增强判别力,我们提出了一种新颖的三元组扩散 (TD) 损失函数,促使TDSM修正正确的骨骼-文本匹配,同时推开不正确的匹配。我们的TDSM以2.36%至13.05%的显著优势超越了当前最先进方法,通过有效的骨骼-文本匹配在零样本设置中展现出卓越的准确性和可扩展性。
  • [论文翻译]低样本异质人脸识别的双重变分生成

    异构人脸识别 (Heterogeneous Face Recognition, HFR) 由于存在较大域差异且缺乏异构数据而成为一个具有挑战性的问题。本文将HFR视为双重生成问题,提出了一种新颖的双重变分生成 (Dual Variation al Generation, DVG) 框架。该框架通过从噪声中生成具有相同身份的大规模成对异构图像,以减小HFR的域差异。具体而言,我们首先引入双重变分自编码器来表示成对异构图像的联合分布。然后,为了确保生成的成对异构图像的身份一致性,我们在潜在空间施加分布对齐约束,并在图像空间施加成对身份保持约束。此外,HFR网络通过约束生成的成对异构图像之间的特征距离来减小域差异。在四个HFR数据库上的大量实验表明,我们的方法能显著提升当前最优性能。相关代码已开源:https://github.com/BradyFU/DVG。
  • [论文翻译]基于解耦视频分割的通用目标追踪

    视频分割的训练数据标注成本高昂,这阻碍了端到端算法在新视频分割任务中的扩展,尤其是在大词汇量场景下。为了实现"追踪万物"而无需针对每项任务单独训练视频数据,我们开发了一种解耦视频分割方法(DEVA),该方法由任务专用的图像级分割和类别/任务无关的双向时序传播组成。得益于这一设计,我们仅需为目标任务训练一个图像级模型(训练成本更低)和一个通用时序传播模型(只需训练一次即可跨任务泛化)。为有效整合这两个模块,我们采用双向传播技术对不同帧的分割假设进行(半)在线融合,从而生成连贯的分割结果。实验表明,在包括大词汇量视频全景分割、开放世界视频分割、指代视频分割和无监督视频目标分割等多个数据稀缺任务中,这种解耦方案优于端到端方法。代码已开源:hkchengrex.github.io/Tracking-Anything-with-DEVA。
  • [论文翻译]遥感自监督学习的特征引导掩码自编码器

    摘要—以掩码图像建模(如掩码自编码器MAE)为指导的自监督学习在遥感领域预训练视觉Transformer时引起了广泛关注。然而,MAE往往过度关注像素细节,从而限制了模型(特别是对含噪SAR图像)的语义理解能力。本文探索将光谱与空间遥感图像特征作为改进的MAE重建目标:首先对不同图像特征重建效果进行研究,发现所有特征均表现优于或等同于原始像素;基于此提出特征引导掩码自编码器(FG-MAE)——针对多光谱图像重建方向梯度直方图(HOG)与归一化差异指数(NDI)的组合特征,针对SAR图像则重建HOG特征。在三个下游任务的实验结果表明FG-MAE具有显著效果(尤其对SAR图像提升明显),同时验证了该方法良好的可扩展性,并首次发布了中分辨率SAR与多光谱图像的预训练视觉Transformer系列模型。
  • [论文翻译]Pix2Pose: 基于像素级坐标回归的物体6D姿态估计

    仅使用RGB图像估计物体的6D姿态仍面临遮挡和对称性等问题的挑战。在缺乏专业知识或专业扫描设备的情况下,构建具有精确纹理的3D模型也十分困难。为解决这些问题,我们提出了一种新颖的姿态估计方法Pix2Pose,该方法无需纹理模型即可预测每个物体像素的3D坐标。我们设计了自动编码器架构来估计每像素的3D坐标和预期误差,这些逐像素预测在多阶段流程中形成2D-3D对应关系,通过RANSAC迭代的PnP算法直接计算姿态。通过利用生成对抗训练的最新成果精确恢复被遮挡部分,我们的方法对遮挡具有鲁棒性。此外,针对对称物体提出了新型损失函数transformer loss,通过将预测引导至最接近的对称姿态来处理对称性问题。在包含对称和遮挡物体的三个不同基准数据集上的评估表明,我们的方法仅使用RGB图像就超越了现有技术水平。
  • [论文翻译]RTMO:迈向高性能单阶段实时多人姿态估计

    实时多人姿态估计在平衡速度与精度方面存在显著挑战。两阶段自上而下方法会随图像中人数增加而减速,而现有单阶段方法往往难以同时实现高精度和实时性能。本文提出RTMO框架,该单阶段姿态估计方案通过YOLO架构内采用双一维热图表示关键点,无缝整合坐标分类,在保持高速的同时达到与自上而下方法相当的精度。我们提出动态坐标分类器和针对热图学习的定制损失函数,专门解决坐标分类与密集预测模型间的兼容性问题。RTMO在COCO数据集上以相同骨干网络实现1.1% AP提升且速度快9倍,超越当前最优单阶段姿态估计器。
  • [论文翻译]COTR: 跨图像匹配的对应关系Transformer

    我们提出了一种基于深度神经网络的新型框架,用于在图像中寻找对应关系。该框架在给定两幅图像及其中一幅的查询点时,能在另一幅图像中找到其对应位置。通过这种方式,可以选择仅查询感兴趣的点以获取稀疏对应关系,或查询图像中所有点以获得密集映射。重要的是,为了捕捉局部和全局先验,并让模型利用最相关的先验关联图像区域,我们采用Transformer架构实现网络。在推理阶段,通过递归放大估计区域来应用我们的对应网络,形成一个能够提供高精度对应关系的多尺度流程。我们的方法在多个数据集和任务(从宽基线立体匹配到光流)的稀疏与稠密对应问题上显著优于现有技术,且无需针对特定数据集重新训练。我们承诺公开数据、代码及所有必要工具,确保从头训练的可复现性。
  • [论文翻译]揭示关键细节以识别差异:基于骨架的动作识别新原型视角

    在基于骨架的动作识别中,一个关键挑战是由于骨骼表示缺乏图像级细节,难以区分关节轨迹相似的动作。我们认识到相似动作的区分依赖于特定身体部位的细微运动细节,因此将方法重点放在局部骨架组件的细粒度运动上。为此,我们提出了ProtoGCN——一种基于图卷积网络(GCN)的模型,它将整个骨架序列的动态分解为可学习原型(prototype)的组合,这些原型代表动作单元的核心运动模式。通过对比原型重建,ProtoGCN能有效识别并增强相似动作的判别性表征。在未使用额外技巧的情况下,ProtoGCN在NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM等多个基准数据集上实现了最先进的性能,证明了该方法的有效性。代码已开源:https://github.com/firework8/ProtoGCN。
  • [论文翻译]理解图像检索重排序:基于图神经网络的视角

    重排序方法利用高置信度检索样本来优化检索结果,已被广泛用作图像检索任务的后处理工具。然而,我们注意到重排序存在一个主要缺陷,即计算复杂度高,这导致实际应用中的时间成本难以承受。本文重新审视重排序,并证明重排序可以重构为一种高并行度的图神经网络 (Graph Neural Network, GNN) 函数。具体而言,我们将传统重排序过程分为两个阶段,即检索高质量图库样本和更新特征。
  • [论文翻译]STEAD:面向时间和计算敏感应用的时空高效异常检测

    提出了一种在具有时间和计算敏感需求的自动化系统(如自动驾驶)中进行异常检测的新方法,其效率无与伦比。随着自动驾驶等系统日益普及,确保其安全性变得比以往任何时候都更为重要。因此,本文重点研究如何快速有效地检测上述系统中的各种异常,旨在使其更安全、更高效。许多检测系统在空间场景下已取得巨大成功;然而在时间场景方面仍有显著改进空间。
  • [论文翻译]AudioCLIP: 将CLIP扩展到图像、文本和音频领域⋆

    过去,快速发展的声音分类领域极大地受益于其他领域方法的应用。如今,我们观察到将特定领域任务与方法相融合的趋势,这为学界提供了新的杰出模型。本文提出了一种CLIP模型的扩展版本,使其能够同时处理文本、图像和音频。我们提出的模型通过AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使模型能够执行双模态和单模态分类及查询,同时保持CLIP以零样本推理方式泛化至未见数据集的能力。AudioCLIP在环境声音分类(ESC)任务中取得了新的最先进成果,在UrbanSound8K数据集上达到90.07%的准确率,在ESC-50数据集上达到97.15%的准确率,超越了其他方法。此外,它还在相同数据集的零样本ESC任务中设立了新基准(分别为68.78%和69.40%)。
  • [论文翻译]CARN: 快速、准确、轻量级的超分辨率级联残差网络

    近年来,深度学习方法已经成功地应用于单图像超分辨率任务。尽管深度学习方法有很好的性能,但由于计算量大的要求,它们很难适用于实际任务。 本文通过提出一种精确、轻量级的图像超分辨率深度网络来解决这一问题。 详细地说,我们在残差网络上设计了一个级联机制的架构。我们也展示了多个不同的级联残差模型来验证算法的有效性。大量实验表明,即使用很少的参数和操作,我们的模型也能达到与最先进的方法相当的性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理