# LLM新手在双用途、计算机模拟生物学任务中的能力提升 LLM Novice Uplift on Dual。.
大型语言模型(LLMs)在生物学基准测试中的表现日益提高,但它们是否能提升初学者的能力——即使人们的表现优于仅使用互联网资源的情况——仍不明确。这种不确定性对于理解科学加速和双重用途风险都至关重要。我们进行了一项多模型、多基准的人类提升研究,比较了在八个生物安全相关任务集上获得LLM访问权限的初学者与仅获得互联网访问权限的初学者。参与者在充足的时间内(最复杂的任务最长达13小时)从事复杂问题的解决。我们发现LLM访问提供了显著的提升:使用LLM的初学者的准确性比对照组高4.16倍(95% CI [2.63, 6.87])。在四个具有可用专家基线(仅互联网)的基准测试中,使用LLM的初学者在其中三个基准测试上的表现优于专家。也许令人惊讶的是,独立的LLM往往超过了由LLM辅助的初学者,表明用户没有从LLM中获得最强的可用贡献。尽管有防护措施,大多数参与者(89.6%)报告在获得双重用途相关信息方面几乎没有遇到困难。总的来说,LLM在以前仅由受训从业者保留的生物学任务上大幅提升初学者能力,强调了需要进行持续的、交互式的提升评估以补充传统基准测试。
赞
评论
请
登录后发表观点
