SMAC:用于鲁棒离线到在线迁移的分数匹配演员-评论家

现代离线强化学习(RL)方法找到了性能优良的演员-评论家,然而,通常情况下,使用基于价值的RL算法在线微调这些演员-评论家会导致性能立即下降。我们提供了与以下假设一致的证据,即在损失景观中,先前算法的离线最大值和在线最大值之间存在着性能低下的山谷,而基于梯度的微调需要穿越这些山谷。在此之后,我们提出了得分匹配演员-评论家(SMAC),这是一种离线RL方法,旨在学习能够平稳过渡到在线价值基RL算法的演员-评论家,而不会导致性能下降。SMAC通过在离线阶段对Q函数进行正则化,使其尊重策略得分与Q函数动作梯度的第一阶导数之间的等式,从而避免了离线和在线最大值之间的山谷。我们通过实验证明了SMAC收敛到离线最大值,这些最大值通过第一阶优化找到的具有单调递增奖励的路径与更好的在线最大值相连接。在6/6 D4RL任务中,SMAC实现了Soft Actor-Critic和TD3的平稳迁移。在4/6个环境中,它将遗憾减少了34-58%,超过了最佳基线。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行