# 帮助读者进行新闻可信度评估的辅助RAG系统自动化评估资源 ## 摘要 在当今。.
完整版
当今许多读者在评估在线新闻的可信度时面临困难,因为可靠的报道与错误信息并存。TREC 2025 DRAGUN (Detection, Retrieval, and Augmented Generation for Understanding News,检测、检索和增强生成用于新闻理解)赛道为研究人员提供了一个平台,开发和评估辅助性RAG系统,通过生成读者导向的、充分归属的报告,支持读者的新闻可信度评估。作为DRAGUN赛道的组织者,我们描述了我们新开发的资源,以便对该赛道的任务进行重用。赛道包含两个任务:(任务1)问题生成,产生10个排序的调查问题;以及(任务2,主要任务)报告生成,产生一份基于MS MARCO V2.1分段语料库的250字报告。作为赛道评估的一部分,我们要求TREC评估员为30篇不同的新闻文章创建带有预期简短答案的重要性加权评分标准。这些评分标准代表了评估员认为读者评估文章可信度时需要了解的信息。评估员随后使用他们的评分标准手动评判参赛队伍提交的运行结果。为了使这些任务及其评分标准可重用,我们创建了一个自动化流程来评判不属于原始评估的运行结果。我们证明了相比TREC人工评估,我们的AutoJudge能够很好地排序现有的运行结果(任务1的Kendall's τ = 0.678,任务2的τ = 0.872)。这些资源既能够用于评估辅助性新闻可信度评估的RAG系统,也能够通过人工评估作为基准,支持改进自动化RAG评估的研究。
赞
评论
请
登录后发表观点
