| Invalid Date
字数 0阅读时长 1 分钟
根据相对优势更新策略模型的参数,增加高奖励输出的概率,减少低奖励输出的概率。同时,通过KL散度约束确保策略更新的稳定性。
句子级别的重要性采样
句子级别的重要性采样
Loading...
目录