Civilization Museum
The Dark Forest
Civilization Museum
The Dark Forest
  • 目录
  • 关于
0%
7.1 状态价值的时序差分(TD)算法7.1.1算法描述 7.1.2 时序差分(TD)算法的推导7.1.3 性质分析7.1.3.3 TD算法仅估计状态价值7.1.3.4 TD learning与MC learning7.1.4 收敛性分析7.2 动作价值的时序差分(TD)算法:Sarsa算法7.2.1 算法描述7.2.3 推导7.2.2 通过Sarsa学习最优策略举例7.6 Sarsa算法变体——Expected Sarsa7.6.1 推导7.3 动作价值的时序差分(TD)算法:n步Sarsa算法7.4 最优动作价值的时序差分(TD)算法:Q-learning7.4.1 算法描述7.4.2 离线策略(off-policy)与在线策略(on-policy)Sarsa算法是在线策略(on-policy)算法。Q-learning是离线策略(off-policy)的蒙特卡洛(MC)学习是在线策略(on-policy)学习7.4.3 实施7.4.4 示例说明7.5 统一的观点7.6 总结7.7 问答
Logic
Logic
给时间以生命 给岁月以文明
191篇文章| 位访客
公告
备用网址:vabc.eu.org
 
最新发布
  • 十三、SAC算法
  • 【论文精读】DeepSeek-V2
  • 一、强化学习概述
  • 七、时序差分算法
  • 二、状态价值与贝尔曼公式
  • 三、最优状态价值与贝尔曼最优性方程
  • 分类
    更多
    标签
    更多
    目录
    0%
    7.1 状态价值的时序差分(TD)算法7.1.1算法描述 7.1.2 时序差分(TD)算法的推导7.1.3 性质分析7.1.3.3 TD算法仅估计状态价值7.1.3.4 TD learning与MC learning7.1.4 收敛性分析7.2 动作价值的时序差分(TD)算法:Sarsa算法7.2.1 算法描述7.2.3 推导7.2.2 通过Sarsa学习最优策略举例7.6 Sarsa算法变体——Expected Sarsa7.6.1 推导7.3 动作价值的时序差分(TD)算法:n步Sarsa算法7.4 最优动作价值的时序差分(TD)算法:Q-learning7.4.1 算法描述7.4.2 离线策略(off-policy)与在线策略(on-policy)Sarsa算法是在线策略(on-policy)算法。Q-learning是离线策略(off-policy)的蒙特卡洛(MC)学习是在线策略(on-policy)学习7.4.3 实施7.4.4 示例说明7.5 统一的观点7.6 总结7.7 问答
    0%
    2021-2026 Logic.

    Civilization Museum

    Powered by NotionNext 4.9.5.2.