• [论文翻译]一种零样本/少样本异常分类与分割方法:CVPR 2023 VAND研讨会挑战赛赛道1&2夺冠(零样本异常检测第1名,少样本异常检测第4名)

    在本技术报告中,我们简要介绍了针对2023年视觉异常与新颖性检测(VAND)挑战赛零样本/少样本赛道的解决方案。对于工业视觉检测而言,构建一个无需或仅需少量正常参考图像就能快速适配众多品类的单一模型,是一个极具前景的研究方向。这主要源于产品类型的极端多样性。
  • [论文翻译]基于角点的区域提议检测多方向文本

    以往的场景文本检测方法通常依赖于手动定义的滑动窗口。本研究提出了一种直观的两阶段基于区域的方法,无需任何关于文本形状的先验知识即可检测多方向文本。在第一阶段,我们通过检测并连接角点而非滑动一组预设锚框来估计文本实例的可能位置。四边形候选框具有几何自适应性,使本方法能够应对各种文本长宽比和方向。在第二阶段,我们设计了一种名为双RoI池化 (Dual-RoI Pooling) 的新型池化层,该层将数据增强嵌入区域子网络中,从而对这些候选框进行更鲁棒的分类和回归。公开基准测试的实验结果证实,所提方法能够达到与最先进方法相当的性能。代码公开于 https://github.com/xhzdeng/crpn。
  • [论文翻译]FOCUS:迈向通用前景分割

    前景分割是计算机视觉中的基础任务,涵盖多种细分任务。先前研究通常为每个任务设计特定架构,导致缺乏统一性。此外,这些方法主要关注前景对象识别,未能有效区分前景与背景。本文重点探讨背景的重要性及其与前景的关系,提出FOCUS(Foreground ObjeCts Universal Segmentation)框架,可处理多种前景任务。我们利用物体边缘信息构建多尺度语义网络以增强图像特征。为实现边界感知分割,提出一种新型蒸馏方法,结合对比学习策略在多模态特征空间中优化预测掩码。我们在5类任务的13个数据集上开展大量实验,结果表明FOCUS在多数指标上持续优于当前最先进的专用模型。
  • [论文翻译]通过联合卷积自编码器嵌入和相对熵最小化实现深度聚类

    图像聚类是计算机视觉最重要的应用之一,已在文献中被广泛研究。然而,当前聚类方法在处理大规模高维数据时普遍存在效率和可扩展性不足的问题。本文提出了一种称为深度嵌入正则化聚类(DEPICT)的新模型,它能高效地将数据映射到判别性嵌入子空间并精确预测聚类分配。DEPICT通常由堆叠在多层卷积自编码器上的多项逻辑回归函数构成。我们通过相对熵(KL散度)最小化定义聚类目标函数,并以聚类分配频率的先验分布作为正则项,进而推导出交替优化策略来更新参数并估计聚类分配。此外,我们在自编码器中采用重构损失函数作为数据依赖的正则化项,以防止深度嵌入函数过拟合。为了获得端到端优化的优势并消除分层预训练的必要性,我们引入联合学习框架来同步最小化统一的聚类与重构损失函数,并同时训练所有网络层。实验结果表明,在现实世界无标签数据可供超参数调优的聚类任务中,DEPICT具有优越性能和更快的运行速度。
  • [论文翻译]基于大语言模型利用空间构型与运动动态的高效无注释手语翻译

    无注释手语翻译 (SLT) 将手语视频直接转换为口语语句,无需依赖手语注释(即手语的书面表示形式)。近期,大语言模型 (LLM) 凭借其强大的自然语言生成能力,在无注释方法中展现出卓越的翻译性能。然而,这些方法通常需要对视觉编码器进行领域特定微调才能获得最佳效果。相比之下,我们强调捕捉手语空间构型和运动动态的重要性。基于此,我们提出了基于空间与运动的手语翻译框架 (SpaMo) ,这是一种新型基于大语言模型的 SLT 框架。SpaMo 的核心思想简单而高效:我们使用现成的视觉编码器提取空间和运动特征,而非领域特定微调,随后将这些特征与语言提示共同输入大语言模型。此外,在应用 SLT 监督前,我们采用视觉-文本对齐流程作为轻量级预热步骤。实验表明,SpaMo 在 PHOENIX14T、CSL-Daily 和 How2Sign 三个主流数据集上均实现了最先进性能,且无需视觉微调 [1]。
  • [论文翻译]视觉关系检测中的内部与外部语言知识蒸馏

    理解两个物体之间的视觉关系涉及识别主体、客体以及连接它们的谓词。我们利用谓词与\$\langle subj, obj\rangle\$对之间(语义和空间上)的强相关性,基于主体和客体来预测谓词。相比独立建模,联合建模这三个实体能更准确地反映它们的关系,但由于视觉关系的语义空间庞大且训练数据有限(尤其是实例稀少的长尾关系),这会增加学习难度。为此,我们利用语言统计知识来规范视觉模型学习:通过挖掘训练标注(内部知识)和公开文本(如维基百科等外部知识)
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理