[论文翻译]VALOR:视觉-音频-语言全感知预训练模型及数据集
摘要—本文提出了一种面向多模态理解与生成的视觉-音频-语言全感知预训练模型(VALOR)。不同于广泛研究的视觉-语言预训练模型,VALOR以端到端方式联合建模视觉、音频和语言的关系。该模型包含三个独立的单模态编码器和一个多模态条件文本生成解码器。我们设计了两个预训练任务:多模态分组对齐(MGA)和多模态分组描述(MGC)。MGA将视觉、语言和音频映射到同一公共空间,同时建立视觉-语言、音频-语言及视听-语言的对齐关系;MGC则学习在视觉、音频或两者共同条件下生成文本token。为推进视听语言预训练研究,我们构建了大规模高质量三模态数据集VALOR-1M,包含100万条带人工标注视听描述的可听视频。大量实验表明,VALOR能学习强大多模态关联,并可泛化至不同输入模态(如视觉-语言、音频-语言及视听-语言)的各种下游任务(如检索、描述和问答)。VALOR在系列公开跨模态基准测试中实现了最先进性能。