Civilization Museum
The Dark Forest
目录
0%
强化学习难点
基本概念
网格世界
状态和动作
状态
动作
状态转移
状态转移矩阵
状态转移方程
策略
策略方程
奖励
奖励表格
Trajectories, returns, and episodes
Trajectory
episode
return(回报)
强化学习理论框架
Markov decision processes
基本概念
马尔科夫决策过程
马尔可夫决策过程与马尔可夫过程的区别
状态价值
贝尔曼公式
求解状态价值
动作价值
动作价值与状态价值
贝尔曼方程
最优策略
定义
贝尔曼最优方程
求最优策略的方法
求最优策略—环境已知
策略迭代算法
矩阵形式
值迭代(本质上是计算贝尔曼最优方程)
矩阵形式
Truncated policy iteration(基于策略迭代)
Elementwise 形式
总结
计算状态价值
更新策略
求最优策略—环境未知
蒙特卡洛算法
基本蒙特卡洛算法
MC Exploring Starts
MC -Greedy
时序差分算法
基于状态价值的时序差分(估计状态价值)
基于动作价值的Sarsa算法
Sarsa算法变体——Expected Sarsa
Sarsa算法变体——n步Sarsa算法
基于最优动作价值的Q-learning
总结
价值函数近似
目标函数
优化算法
带函数逼近的 Sarsa
带函数逼近的 Q-learning
Deep Q-learnning
策略梯度算法
评估指标
目标函数的梯度公式
优化算法
Actor-Critic
The simplest actor-critic algorithm (QAC)
Advantage actor-critic (A2C)
Off-policy actor-critic
Deterministic actor-critic(DPG)
Deep Deterministic actor-critic(DDPG)
双延时确定策略梯度(TD3)
TRPO(策略梯度的一种)
PPO算法(策略梯度的一种)
Soft Actor-Critic (SAC) 算法
定义
策略评估
策略提升
离散动作空间
连续动作空间
前沿
不完全观测
不完全问题
解决方案
环境模型(环境模拟器)
决策时规划
后台规划
高级技巧
目标导向的强化学习
概念
HER算法
离线强化学习
简介
挑战
解决方法
解决方法1——BCQ
解决方法2——CQL
模仿学习
行为克隆
逆强化学习
生成判别模仿学习
模型结构
训练过程
多智能体
简介
完全合作关系
简介
模型结构
多智能体A2C
非合作关系
简介
收敛标准
评价策略的优劣
模型结构
多智能体A2C
连续控制与MADDPG
三种架构
自注意力在中心化训练中的应用
状态价值网络示例
动作价值网络示例
技巧
经验回放
优点
优先经验回放
后向聚焦采样
高估问题及解决方法
原因
危害
解决方法
对决网络(DuelingNetwork)
基本定义
网络结构
熵正则
目标函数
梯度
附录
Robbins-Monro算法
Dvoretzky’s收敛定理
随机梯度下降
收敛模式
0%