MARS:基于边缘感知的奖励建模与自优化
奖励建模是现代对齐管道的核心组件,包括RLHF和RLAIF,支撑策略优化方法,如PPO和TRPO。然而,训练可靠的奖励模型严重依赖于人工标注的偏好数据,这些数据成本高昂且有限,从而推动了数据增强的使用。现有的增强方法通常在表示或语义层面操作,并且对奖励模型的估计难度保持无知。在本文中,我们提出了MARS,一种自适应的、边缘感知的增强和采样策略,它明确针对奖励模型的模糊和失败模式。我们提出的框架MARS将增强集中在低边缘(模糊)的偏好对上,在这些偏好对上,奖励模型最不确定,并通过硬样本增强迭代地细化训练分布。我们提供了理论保证,表明这种策略增加了损失函数的平均曲率,从而增强了信息和条件,并提供了实证结果,表明与均匀增强相比,MARS在鲁棒奖励建模方面具有一致的增益。
赞
评论
请
登录后发表观点
