Civilization Museum
The Dark Forest
目录
0%
多智能体系统设定
完全合作关系
简介
原理
目标函数
训练
多智能体A2C
网络结构
梯度
训练流程
决策流程
实现中的难点
三种架构
中心化训练+中心化决策
去中心化训练+去中心化决策
中心化训练+去中心化决策
非合作关系
简介
原理
目标函数
训练
收敛标准
评价策略的优劣
非合作设定下的多智能体A2C
策略网络和价值网络
梯度
训练流程
决策流程
三种架构
中心化训练+中心化决策
去中心化训练+去中心化决策
中心化训练+去中心化决策
连续控制与MADDPG
策略网络和价值网络
梯度
中心化训练
去中心化决策
自注意力在中心化训练中的应用
非合作关系
状态价值网络示例
动作价值网络示例
0%