何时信任低价检查：推理中的弱验证和强验证

随着大型语言模型（LLMs）的推理越来越多地在一个更广泛的验证循环中进行，内部系统使用廉价的检查，如自洽性或代理奖励，我们称之为弱验证。外部，用户检查输出并通过反馈引导模型，直到结果值得信赖，我们称之为强验证。这些信号在成本和可靠性方面存在显著差异：强验证可以建立信任，但资源密集，而弱验证快速且可扩展，但噪声大且不完美。我们通过弱-强验证策略形式化这种紧张关系，该策略根据弱验证决定何时接受或拒绝，何时推迟到强验证。我们引入了捕获错误接受、错误拒绝和强验证频率的指标。在总体上，我们表明最优策略采用双阈值结构，校准和锐度决定了弱验证的价值。在此基础上，我们开发了一个在线算法，该算法可以证明在不假设查询流、语言模型或弱验证器的情况下控制接受和拒绝错误。