摘 要:典型基于深度强化学习的多智能体对抗策略生成方法采用“分总” 框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化(试读)...