何时信任低价检查:推理中的弱验证和强验证
随着大型语言模型(LLMs)的推理越来越多地在一个更广泛的验证循环中进行,内部系统使用廉价的检查,如自洽性或代理奖励,我们称之为弱验证。外部,用户检查输出并通过反馈引导模型,直到结果值得信赖,我们称之为强验证。这些信号在成本和可靠性方面存在显著差异:强验证可以建立信任,但资源密集,而弱验证快速且可扩展,但噪声大且不完美。我们通过弱-强验证策略形式化这种紧张关系,该策略根据弱验证决定何时接受或拒绝,何时推迟到强验证。我们引入了捕获错误接受、错误拒绝和强验证频率的指标。在总体上,我们表明最优策略采用双阈值结构,校准和锐度决定了弱验证的价值。在此基础上,我们开发了一个在线算法,该算法可以证明在不假设查询流、语言模型或弱验证器的情况下控制接受和拒绝错误。
赞
评论
请
登录后发表观点
