[论文翻译]UniTraj: 可扩展车辆轨迹预测的统一框架 摘要:车辆轨迹预测日益依赖数据驱动的解决方案,但其跨数据领域的扩展能力以及更大规模数据集对泛化性能的影响仍缺乏深入研究。虽然这些问题可通过使用多个数据集来探究,但由于数据格式、地图分辨率和语义标注类型等差异,研究面临挑战。为此,我们提出UniTraj框架,该框架统一了多种数据集、模型和评估标准,为车辆轨迹预测领域带来新机遇。 由 shadow发布于 2025-07-14 20:07:35 数据集训练模型nuScenes数据 阅读次数 123
[论文翻译]UnLoc: 视频定位任务的统一框架 虽然CLIP等大规模图文预训练模型已应用于经过剪辑视频的多种视频级任务,但其在未剪辑视频中进行时序定位的用途仍是一个相对未被探索的领域。我们为此设计了名为UnLoc的新方法,该方法利用预训练的图文双塔架构,将token输入视频-文本融合模型。融合模块的输出用于构建特征金字塔,其中每一层级连接至预测逐帧相关性分数及起止时间位移的检测头。与先前工作不同,我们的架构通过单阶段模型即可实现片段检索、时序定位和动作分割,无需动作提案、基于运动的预训练特征或表征掩码。不同于专用模型,我们采用统一方法在三种不同的定位任务上均取得了最先进的成果。代码将在以下地址发布:https://github.com/google-research/scenic。 由 shadow发布于 2025-05-27 14:32:47 预训练模型训练模型语言预训练模型 阅读次数 328
[论文翻译]VALOR:视觉-音频-语言全感知预训练模型及数据集 摘要—本文提出了一种面向多模态理解与生成的视觉-音频-语言全感知预训练模型(VALOR)。不同于广泛研究的视觉-语言预训练模型,VALOR以端到端方式联合建模视觉、音频和语言的关系。该模型包含三个独立的单模态编码器和一个多模态条件文本生成解码器。我们设计了两个预训练任务:多模态分组对齐(MGA)和多模态分组描述(MGC)。MGA将视觉、语言和音频映射到同一公共空间,同时建立视觉-语言、音频-语言及视听-语言的对齐关系;MGC则学习在视觉、音频或两者共同条件下生成文本token。为推进视听语言预训练研究,我们构建了大规模高质量三模态数据集VALOR-1M,包含100万条带人工标注视听描述的可听视频。大量实验表明,VALOR能学习强大多模态关联,并可泛化至不同输入模态(如视觉-语言、音频-语言及视听-语言)的各种下游任务(如检索、描述和问答)。VALOR在系列公开跨模态基准测试中实现了最先进性能。 由 shadow发布于 2025-05-21 16:43:47 建模视觉训练模型语言预训练模型 阅读次数 278