当前位置:首页 > 科技文档 > 体育 > 正文

结合PPO和蒙特卡洛树搜索的斗地主博弈模型

摘要: 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization, PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提... (共8页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报