[论文翻译]多模态差分网络在视觉问题生成中的应用 从图像生成自然问题是一项需要结合视觉与语言模态来学习多模态表征的语义任务。图像可能包含与问题生成相关的多重视觉和语言上下文,例如场景、描述文字和标签。本文提出利用示例样本获取相关上下文,通过多模态差分网络生成自然且引人入胜的问题。人工评估表明,生成的问题与自然问题具有显著相似性。此外,定量指标(BLEU、METEOR、ROUGE和CIDEr)显示,该方法较现有最优基准有显著提升。 由 shadow发布于 2025-06-09 20:51:22 大模型语言模态自然语言处理 阅读次数 229