【译文内容】深度信息综合基准

【译文内容】基于大型语言模型（LLM）的智能体越来越多地被用于解决涉及工具使用等复杂任务，例如网络浏览、代码执行和数据分析。然而，当前的评价基准并没有充分评估它们解决需要从多个来源综合信息和推断超出简单事实检索的见解的现实世界任务的能力。为了解决这个问题，我们引入了DEEPSYNTH，这是一个新颖的基准，旨在评估智能体在现实、耗时的问题上的能力，这些问题结合了信息收集、综合和结构化推理来产生见解。DEEPSYNTH包含7个领域和67个国家的120个任务。DEEPSYNTH是通过一个多阶段数据收集管道构建的，该管道要求标注员收集官方数据源、创建假设、进行手动分析和设计带有可验证答案的任务。当在DEEPSYNTH上进行评估时，11个最先进的LLM和深度研究智能体在LLM-judge指标上的最大F1分数为8.97和17.5，凸显了基准的难度。我们的分析表明，当前智能体在幻觉和在大信息空间中进行推理方面存在困难，突显了DEEPSYNTH作为指导未来研究的关键基准的重要性。

【译文内容】 深度信息综合基准

【译文内容】深度信息综合基准