# LLM新手在双用途、计算机模拟生物学任务中的能力提升 LLM Novice Uplift on Dual。.

大型语言模型（LLMs）在生物学基准测试中的表现日益提高，但它们是否能提升初学者的能力——即使人们的表现优于仅使用互联网资源的情况——仍不明确。这种不确定性对于理解科学加速和双重用途风险都至关重要。我们进行了一项多模型、多基准的人类提升研究，比较了在八个生物安全相关任务集上获得LLM访问权限的初学者与仅获得互联网访问权限的初学者。参与者在充足的时间内（最复杂的任务最长达13小时）从事复杂问题的解决。我们发现LLM访问提供了显著的提升：使用LLM的初学者的准确性比对照组高4.16倍（95% CI [2.63, 6.87]）。在四个具有可用专家基线（仅互联网）的基准测试中，使用LLM的初学者在其中三个基准测试上的表现优于专家。也许令人惊讶的是，独立的LLM往往超过了由LLM辅助的初学者，表明用户没有从LLM中获得最强的可用贡献。尽管有防护措施，大多数参与者（89.6%）报告在获得双重用途相关信息方面几乎没有遇到困难。总的来说，LLM在以前仅由受训从业者保留的生物学任务上大幅提升初学者能力，强调了需要进行持续的、交互式的提升评估以补充传统基准测试。