Civilization Museum
The Dark Forest
目录
0%
RHLF(PPO)
背景
强化学习基本思路
Actor-Critic
原理
目标函数
重要性采样
优势函数
置信域
参数更新
大模型中的计算流程
1、初始化
2、数据预处理
3、奖励
4、更新Actor
5、更新Critic
DPO
GRPO
1、背景
2、核心思想
2.1、奖励
2.2、目标函数
3、计算流程
3.1、采样动作组
3.2、奖励评估
3.3、计算相对优势
3.4、重要性采样
3.5、计算KL散度
3.6、策略更新
4、trl的实现
4.1、数据采样
4.2、计算KL散度
4.3、计算reward函数
4.4、计算loss
5、奖励函数
trl开源包
DeepSeek-R1复现
1、环境
2、数据与模型
0%