• [论文翻译]从人类反馈中学习摘要生成

    Learning to summarize from human feedback 从人类反馈中学习摘要生成 Nisan Stiennon∗ Long Ouyang∗ Jeff Wu∗ Daniel M. Ziegler∗ Ryan Lowe∗ Nisan Stiennon∗ Long Ouyang∗ Jeff Wu∗ Daniel M. Ziegler∗ Ryan Lowe∗ Chelsea Voss∗ Alec Radford Dario Amodei Paul Christiano∗ Chelsea ... 随着大语言模型日益强大,特定任务所使用的数据和评估指标逐渐成为训练与评估的瓶颈。例如,摘要模型通常被训练用于预测人工参考摘要,并使用ROUGE指标进行评估,但这两者都只是摘要质量的粗略替代指标。本研究证明,通过训练模型优化人类偏好能显著提升摘要质量。我们收集了大规模高质量的人类摘要对比数据集,训练出可预测人类偏好摘要的模型,并将其作为奖励函数,通过强化学习微调摘要策略。我们将该方法应用于Reddit帖子的TL;DR数据集[63],发现模型表现显著优于人工参考摘要及仅通过监督学习微调的更大规模模型。该模型还可迁移至CNN/DM新闻文章[22],在未经新闻领域针对性微调的情况下,生成与人工参考摘要质量相当的摘要。我们通过大量分析深入理解人类反馈数据集与微调模型,证实奖励模型具备跨数据集泛化能力,且优化奖励模型比优化ROUGE指标更能产生符合人类偏好的优质摘要。本研究希望促使机器学习研究者更关注训练损失与实际期望模型行为之间的关联。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理