Civilization Museum
The Dark Forest
目录
0%
7.1 状态价值的时序差分(TD)算法
7.1.1算法描述
7.1.2 时序差分(TD)算法的推导
7.1.3 性质分析
7.1.3.3 TD算法仅估计状态价值
7.1.3.4 TD learning与MC learning
7.1.4 收敛性分析
7.2 动作价值的时序差分(TD)算法:Sarsa算法
7.2.1 算法描述
7.2.3 推导
7.2.2 通过Sarsa学习最优策略
举例
7.6 Sarsa算法变体——Expected Sarsa
7.6.1 推导
7.3 动作价值的时序差分(TD)算法:n步Sarsa算法
7.4 最优动作价值的时序差分(TD)算法:Q-learning
7.4.1 算法描述
7.4.2 离线策略(off-policy)与在线策略(on-policy)
Sarsa算法是在线策略(on-policy)算法。
Q-learning是离线策略(off-policy)的
蒙特卡洛(MC)学习是在线策略(on-policy)学习
7.4.3 实施
7.4.4 示例说明
7.5 统一的观点
7.6 总结
7.7 问答
0%