• [论文翻译]小数据集上的文本到图像生成数据外推

    文本到图像生成需要大量训练数据来合成高质量图像。为扩充训练数据,先前方法依赖于裁剪、翻转和混合等数据插值技术,这些方法无法引入新信息且仅带来边际改进。本文提出一种基于线性外推的文本到图像生成数据增强新方法。具体而言,我们仅对文本特征进行线性外推,并通过搜索引擎从互联网检索新图像数据。为确保新文本-图像对的可靠性,我们设计两个离群值检测器来净化检索图像。
  • [论文翻译]TMCIR: Token Merge提升组合图像检索

    为解决这一挑战,我们提出TMCIR框架,通过两项关键创新推动组合图像检索发展:1) 意图感知跨模态对齐。我们首先使用扩散模型根据参考图像和文本描述合成的意图反映伪目标图像,以对比学习方式微调CLIP编码器。这一步骤增强了文本编码器捕捉文本描述中细微意图的能力。2) 自适应Token融合。我们通过将自适应Token融合特征与目标图像进行对比,进一步以对比学习方式微调所有编码器。该机制在对比学习流程中动态平衡视觉与文本表示,优化检索所需的组合特征。在Fashion-IQ和CIRR数据集上的大量实验表明,TMCIR显著优于现有最优方法,尤其在捕捉用户细微意图方面表现突出。
  • [论文翻译]基于统一Transformer框架的群组分割:协同分割、协同显著性检测与视频显著目标检测

    摘要—人类倾向于通过从一组图像或视频的若干帧中学习来挖掘物体,因为我们生活在一个动态的世界中。在计算机视觉领域,许多研究关注于协同分割 (CoS)、协同显著性检测 (CoSD) 和视频显著目标检测 (VSOD) 以发现共现物体。然而,先前的方法针对这些相似任务分别设计了不同的网络,难以相互迁移应用,从而降低了深度学习框架迁移能力的上限。此外,它们未能充分利用一组图像中特征间和特征内的线索。本文提出一个统一框架来解决这些问题,称为 UFO (Unified Framework for Co-Object Segmentation)。具体而言,我们首先引入一个 Transformer 模块,将图像特征视为 patch token,并通过自注意力机制捕获其长程依赖关系。这有助于网络挖掘相关物体间的 patch 结构化相似性。此外,我们提出一个 intra-MLP 学习模块来生成自掩码,以增强网络避免部分激活的能力。在四个 CoS 基准 (PASCAL、iCoseg、Internet 和 MSRC)、三个 CoSD 基准 (Cosal2015、CoSOD3k 和 CocA) 以及四个 VSOD 基准 (DAVIS16、FBMS、ViSal 和 SegV2) 上的大量实验表明,我们的方法在使用相同网络架构的情况下,在三个不同任务的准确性和速度上均优于其他最先进方法,实时速度可达 140 FPS。代码发布于 https://github.com/suyukun666/UFO
  • [论文翻译]基于Transformer的新型大规模多模态多任务学习网络

    我们提出了一种新颖的多模态多任务网络及配套训练算法。该方法能够处理约12种不同模态的数据,包括图像、视频、音频、文本、深度、点云、时间序列、表格、图结构、X光、红外、惯性测量单元(IMU)和高光谱数据。该方案采用模态专用分词器、共享Transformer架构和交叉注意力机制,将不同模态数据映射到统一嵌入空间。通过为各模态中的不同任务配备模态特定任务头,有效应对多模态与多任务场景。我们提出了一种基于迭代模态切换的新型预训练策略来初始化网络,并设计了一种训练算法,该算法在全局全模态联合训练与成对模态交替训练之间实现平衡。我们在12种模态的25个数据集上进行了全面评估,展示了最先进的性能表现,验证了所提架构、预训练策略和自适应多任务训练方法的有效性。
  • [论文翻译]表征学习与身份对抗训练的面部行为理解

    面部动作单元 (AU) 检测因其能将复杂面部表情分解为独立的肌肉运动而受到广泛关注。本文重新审视了AU检测中的两个关键因素:多样化的大规模数据和主体身份正则化。受基础模型 (foundation model) 近期进展的启发,我们强调了数据的重要性,并推出了Face9M数据集——该数据集整合了来自多个公开来源的900万张面部图像,具有高度多样性。在Face9M上预训练掩码自编码器 (masked auto encoder) 在AU检测和面部表情任务中展现出强劲性能。更重要的是,我们发现身份对抗训练 (Identity Adversarial Training, IAT) 在AU任务中尚未得到充分探索。为此我们首先论证了:AU数据集中的主体身份会导致模型陷入捷径学习 (shortcut learning),从而产生次优的AU预测方案;其次证明了强IAT正则化对学习身份无关特征的必要性;最后系统阐释了IAT的设计空间,并通过实验验证IAT能有效规避基于身份的捷径学习,获得更优解。我们提出的面部掩码自编码器 (Facial Masked Auto encoder, FMAE) 和IAT方法兼具简洁性、通用性和高效性。
  • [论文翻译]可分解网络:一种基于子图的高效场景图生成框架

    摘要。近年来,生成描述图像内物体交互关系的场景图(scene graph)受到越来越多的关注。然而,现有方法大多采用推理速度缓慢的复杂结构或依赖外部数据,限制了模型在实际场景中的应用。为提高场景图生成效率,我们提出一种基于子图的连接图(subgraph-based connection graph),在推理过程中简洁地表示场景图。首先采用自底向上的聚类方法将整个图分解为多个子图,每个子图包含若干物体及其部分关系。通过用更少的子图和物体特征替代场景图中大量的关系表示,中间阶段的计算量显著降低。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理