MARS：基于边缘感知的奖励建模与自优化

奖励建模是现代对齐管道的核心组件，包括RLHF和RLAIF，支撑策略优化方法，如PPO和TRPO。然而，训练可靠的奖励模型严重依赖于人工标注的偏好数据，这些数据成本高昂且有限，从而推动了数据增强的使用。现有的增强方法通常在表示或语义层面操作，并且对奖励模型的估计难度保持无知。在本文中，我们提出了MARS，一种自适应的、边缘感知的增强和采样策略，它明确针对奖励模型的模糊和失败模式。我们提出的框架MARS将增强集中在低边缘（模糊）的偏好对上，在这些偏好对上，奖励模型最不确定，并通过硬样本增强迭代地细化训练分布。我们提供了理论保证，表明这种策略增加了损失函数的平均曲率，从而增强了信息和条件，并提供了实证结果，表明与均匀增强相比，MARS在鲁棒奖励建模方面具有一致的增益。