Civilization Museum

The Dark Forest

Civilization Museum

The Dark Forest

目录
关于

0%

强化学习难点基本概念网格世界状态和动作状态动作状态转移状态转移矩阵状态转移方程策略策略方程奖励奖励表格 Trajectories, returns, and episodes Trajectory episode return（回报）强化学习理论框架 Markov decision processes 基本概念马尔科夫决策过程马尔可夫决策过程与马尔可夫过程的区别状态价值贝尔曼公式求解状态价值动作价值动作价值与状态价值贝尔曼方程最优策略定义贝尔曼最优方程求最优策略的方法求最优策略—环境已知策略迭代算法矩阵形式值迭代(本质上是计算贝尔曼最优方程)矩阵形式 Truncated policy iteration（基于策略迭代）Elementwise 形式总结计算状态价值更新策略求最优策略—环境未知蒙特卡洛算法基本蒙特卡洛算法 MC Exploring Starts MC -Greedy 时序差分算法基于状态价值的时序差分（估计状态价值）基于动作价值的Sarsa算法 Sarsa算法变体——Expected Sarsa Sarsa算法变体——n步Sarsa算法基于最优动作价值的Q-learning 总结价值函数近似目标函数优化算法带函数逼近的 Sarsa 带函数逼近的 Q-learning Deep Q-learnning 策略梯度算法评估指标目标函数的梯度公式优化算法 Actor-Critic The simplest actor-critic algorithm (QAC)Advantage actor-critic (A2C)Off-policy actor-critic Deterministic actor-critic(DPG)Deep Deterministic actor-critic(DDPG)双延时确定策略梯度(TD3)TRPO（策略梯度的一种）PPO算法（策略梯度的一种）Soft Actor-Critic (SAC) 算法定义策略评估策略提升离散动作空间连续动作空间前沿不完全观测不完全问题解决方案环境模型(环境模拟器)决策时规划后台规划高级技巧目标导向的强化学习概念 HER算法离线强化学习简介挑战解决方法解决方法1——BCQ 解决方法2——CQL 模仿学习行为克隆逆强化学习生成判别模仿学习模型结构训练过程多智能体简介完全合作关系简介模型结构多智能体A2C 非合作关系简介收敛标准评价策略的优劣模型结构多智能体A2C 连续控制与MADDPG 三种架构自注意力在中心化训练中的应用状态价值网络示例动作价值网络示例技巧经验回放优点优先经验回放后向聚焦采样高估问题及解决方法原因危害解决方法对决网络(DuelingNetwork)基本定义网络结构熵正则目标函数梯度附录 Robbins-Monro算法 Dvoretzky’s收敛定理随机梯度下降收敛模式

Logic

给时间以生命给岁月以文明

191篇文章| 位访客

公告

备用网址:vabc.eu.org

最新发布

十三、SAC算法

【论文精读】DeepSeek-V2

一、强化学习概述

七、时序差分算法

二、状态价值与贝尔曼公式

三、最优状态价值与贝尔曼最优性方程

分类

标签

目录

0%

强化学习难点基本概念网格世界状态和动作状态动作状态转移状态转移矩阵状态转移方程策略策略方程奖励奖励表格 Trajectories, returns, and episodes Trajectory episode return（回报）强化学习理论框架 Markov decision processes 基本概念马尔科夫决策过程马尔可夫决策过程与马尔可夫过程的区别状态价值贝尔曼公式求解状态价值动作价值动作价值与状态价值贝尔曼方程最优策略定义贝尔曼最优方程求最优策略的方法求最优策略—环境已知策略迭代算法矩阵形式值迭代(本质上是计算贝尔曼最优方程)矩阵形式 Truncated policy iteration（基于策略迭代）Elementwise 形式总结计算状态价值更新策略求最优策略—环境未知蒙特卡洛算法基本蒙特卡洛算法 MC Exploring Starts MC -Greedy 时序差分算法基于状态价值的时序差分（估计状态价值）基于动作价值的Sarsa算法 Sarsa算法变体——Expected Sarsa Sarsa算法变体——n步Sarsa算法基于最优动作价值的Q-learning 总结价值函数近似目标函数优化算法带函数逼近的 Sarsa 带函数逼近的 Q-learning Deep Q-learnning 策略梯度算法评估指标目标函数的梯度公式优化算法 Actor-Critic The simplest actor-critic algorithm (QAC)Advantage actor-critic (A2C)Off-policy actor-critic Deterministic actor-critic(DPG)Deep Deterministic actor-critic(DDPG)双延时确定策略梯度(TD3)TRPO（策略梯度的一种）PPO算法（策略梯度的一种）Soft Actor-Critic (SAC) 算法定义策略评估策略提升离散动作空间连续动作空间前沿不完全观测不完全问题解决方案环境模型(环境模拟器)决策时规划后台规划高级技巧目标导向的强化学习概念 HER算法离线强化学习简介挑战解决方法解决方法1——BCQ 解决方法2——CQL 模仿学习行为克隆逆强化学习生成判别模仿学习模型结构训练过程多智能体简介完全合作关系简介模型结构多智能体A2C 非合作关系简介收敛标准评价策略的优劣模型结构多智能体A2C 连续控制与MADDPG 三种架构自注意力在中心化训练中的应用状态价值网络示例动作价值网络示例技巧经验回放优点优先经验回放后向聚焦采样高估问题及解决方法原因危害解决方法对决网络(DuelingNetwork)基本定义网络结构熵正则目标函数梯度附录 Robbins-Monro算法 Dvoretzky’s收敛定理随机梯度下降收敛模式

0%

2021-2026 Logic.

Civilization Museum

Powered by NotionNext 4.9.5.2.