# 内存受限环境中的广义快速动作价值估计 ## Abstract In this work, we present a nove。.
广义快速行动价值估计(GRAVE)已被证明是通用博弈玩法(GGP)中蒙特卡洛树搜索(MCTS)算法族中的强大变体。然而,它依赖于在每个节点存储额外的赢/访问统计信息,这使得它在内存受限的环境中的使用不切实际,从而限制了它在实践中的适用性。在本文中,我们引入了GRAVE2、GRAVER和GRAVER2算法,这些算法分别通过两级搜索、节点回收以及两种技术的结合来扩展GRAVE。我们证明了这些增强使得存储节点数量大幅减少,同时保持了与GRAVE相当的对弈能力。
赞
评论
请
登录后发表观点
