MARS:基于边缘感知的奖励建模与自优化

奖励建模是现代对齐管道的核心组件,包括RLHF和RLAIF,支撑策略优化方法,如PPO和TRPO。然而,训练可靠的奖励模型严重依赖于人工标注的偏好数据,这些数据成本高昂且有限,从而推动了数据增强的使用。现有的增强方法通常在表示或语义层面操作,并且对奖励模型的估计难度保持无知。在本文中,我们提出了MARS,一种自适应的、边缘感知的增强和采样策略,它明确针对奖励模型的模糊和失败模式。我们提出的框架MARS将增强集中在低边缘(模糊)的偏好对上,在这些偏好对上,奖励模型最不确定,并通过硬样本增强迭代地细化训练分布。我们提供了理论保证,表明这种策略增加了损失函数的平均曲率,从而增强了信息和条件,并提供了实证结果,表明与均匀增强相比,MARS在鲁棒奖励建模方面具有一致的增益。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行