• [论文翻译]Layout Diffusion: 面向布局到图像生成的可控扩散模型

    现在请按照上面的要求开始翻译以下内容为简体中文:最近,扩散模型 (diffusion models) 在图像合成领域取得了巨大成功。然而,当涉及包含多个对象的复杂场景的布局到图像生成 (layout-to-image generation) 时,如何同时精确控制全局布局图和每个细节对象仍是一项具有挑战性的任务。本文提出了一种名为 Layout Diffusion 的扩散模型,其生成质量和控制能力均优于先前工作。为解决图像与布局的多模态融合难题,我们提出构建具有区域信息的结构化图像块 (structural image patch),并将分块图像转换为特殊布局形式,从而实现与常规布局的统一融合。此外,本文提出的布局融合模块 (Layout Fusion Module, LFM) 和对象感知交叉注意力 (Object-aware Cross Attention, OaCA) 能够建模多对象间关系,其设计具备对象感知和位置敏感性,可精确控制空间相关信息。
  • [论文翻译]用于行人搜索的图库过滤网络

    在行人搜索任务中,我们的目标是从一个场景中定位查询人物在其他图库场景中的位置。该搜索操作的成本取决于图库场景的数量,因此减少可能场景池的规模是有益的。我们提出并展示了图库过滤网络(Gallery Filter Network,GFN),这是一个新颖的模块,可以高效地从搜索过程中剔除图库场景,并提升在剩余场景中检测到的人物的评分。通过在不同检索集(包括跨摄像头、遮挡和低分辨率场景)上的测试,我们证明了GFN在一系列不同条件下都具有鲁棒性。此外,我们开发了基础的SeqNeXt行人搜索模型,该模型改进并简化了原始的SeqNet模型。
  • [论文翻译]基于亚像素热图回归的面部关键点定位

    基于热图回归的深度学习模型彻底改变了面部关键点定位任务,现有模型在大姿态、非均匀光照与阴影、遮挡与自遮挡、低分辨率及模糊条件下均表现出强大鲁棒性。然而,尽管热图回归方法被广泛采用,其仍存在由离散化过程引发的编码与解码误差。本研究表明,这些误差对面部对齐精度存在超乎预期的显著负面影响。为解决该问题,我们提出一种利用底层连续分布的新型热图编解码方法。为充分发挥新编解码机制的优势,我们还引入了基于孪生网络的训练策略,通过强制热图在不同几何图像变换下的一致性实现性能提升。该方法在多个数据集上取得显著效果提升,创造了面部关键点定位任务的新标杆。预训练模型及代码将在此公开。
  • [论文翻译]尺度等变性提升孪生跟踪性能

    Siamese跟踪器将跟踪任务转化为模板与帧中候选区域之间的相似性估计。从数学角度看,相似度函数成功的关键要素之一是平移等变性 (translation equivariance)。非平移等变的架构会在训练过程中引入位置偏差,导致难以从特征空间恢复目标位置。在现实场景中,目标除了平移还会经历旋转、缩放等多种变换。除非模型具备内部机制处理这些变换,否则相似度可能会下降。本文聚焦缩放变换,旨在为Siamese网络赋予额外的内置尺度等变性 (scale equivariance),从而先验地捕捉目标的自然形变。我们建立了尺度等变Siamese跟踪器的理论框架,并给出通用方案使现有跟踪器具备尺度等变性。基于该方案,我们提出了SiamFC的尺度等变改进版本SE-SiamFC。在OTB、VOT基准测试及合成的T-MNIST、S-MNIST数据集上的实验表明,内置的额外尺度等变性对视觉目标跟踪具有显著价值。
  • [论文翻译]基于4D注意力机制的神经网络在EEG情绪识别中的应用

    脑电图(EEG)情绪识别是脑机接口领域的重要任务。尽管近期提出了许多深度学习方法,但如何充分利用EEG信号不同域的信息仍具挑战性。本文提出了一种基于四维注意力神经网络(4D-aNN)的新方法:首先将原始EEG信号转换为4D空间-频谱-时间表征;随后4D-aNN采用频谱和空间注意力机制自适应分配不同脑区与频段的权重,并利用卷积神经网络(CNN)处理4D表征的频谱和空间信息;此外,通过将时间注意力机制整合到双向长短期记忆网络(LSTM)中,探索4D表征的时间依赖性。我们的模型在SEED数据集上实现了被试内划分的最优性能,实验结果证明了不同域注意力机制对EEG情绪识别的有效性。
  • [论文翻译]重构 vs 生成:化解潜在扩散模型中的优化困境

    基于 Transformer 架构的潜在扩散模型在生成高保真图像方面表现出色。然而,最近的研究揭示了这种两阶段设计中的一个优化困境:虽然在视觉 Tokenizer 中增加每个 Token 的特征维度可以提高重建质量,但它需要更大的扩散模型和更多的训练迭代才能实现相当的生成性能。因此,现有系统通常采用次优解决方案,要么由于 Tokenizer 内的信息丢失而产生视觉伪影,要么由于昂贵的计算成本而无法完全收敛。我们认为,这种困境源于学习无约束高维潜在空间的固有难度。为了解决这个问题,我们建议在训练视觉 Tokenizer 时,将潜在空间与预训练的视觉基础模型对齐。我们提出的 VA-VAE (Vision foundation model Aligned Variational Auto Encoder) 显著扩展了潜在扩散模型的重建-生成边界,使得 Diffusion Transformers (DiT) 在高维潜在空间中能够更快地收敛。为了充分发挥 VA-VAE 的潜力,我们构建了一个增强的 DiT 基线,改进了训练策略和架构设计,称为 Lightning DiT。集成系统在 ImageNet \$256\times256\$ 生成任务上实现了最先进的 (SOTA) 性能,FID 得分为 1.35,同时在仅 64 个 epoch 内达到了 2.11 的 FID 得分,展示了显著的训练效率——与原始 DiT 相比,收敛速度提高了超过 \$2l\times\$。模型和代码可在 https://github.com/hustvl/Lightning DiT 获取。
  • [博客翻译]扩散模型的收敛速度提高了20倍

    基于去噪的生成模型,如扩散模型和流模型,已经成为生成高维视觉数据的可扩展方法。近期研究开始探索将扩散模型作为表示学习工具,其隐藏状态能捕捉有意义的区分特征。我们发现,训练扩散模型的主要挑战在于学习高质量的内部表示。具体来说:当扩散模型得到另一个模型(如自监督视觉编码器)提供的高质量外部表示支持时,生成性能会有显著提升。 我们提出了一种简单的方法——表示对齐(REPA),它建立在最新的扩散变压器架构上。REPA将预训练的自监督视觉表...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理