Civilization Museum
The Dark Forest
目录
0%
背景
GPT
预训练-无监督
微调-有监督
具体任务的输入
附件
GPT-2
数据集
模型方法&可行性
McCann
Zero Shot
模型输入
模型结构
附件
GPT-3
模型情境学习能力的差异
模型结构
数据集
结果
附件
InstructGPT
训练过程
数据集
Models
有监督微调(SFT)
奖励模型(RM)
强化学习模型(PPO)
结果
附件
0%