Skip to content
玛卡巴卡
Search
K
Main Navigation
首页
教程
ES6教程
Bash教程
TS教程
JS教程
C语言教程
笔记
李宏毅机器学习(2017 Spring)
深度学习500问
李宏毅机器学习(2021 Spring)
大语言模型
LLMs相关知识及面试题(wdndev)
关于
隐私政策
Appearance
相关文章
回到顶部
目录
07.强化学习
7.1 强化学习原理
策略梯度(pg)
近端策略优化(ppo)
7.2 RLHF
大模型RLHF:PPO原理与源码解读
DPO
7.3 一些题目
1.rlhf相关
2.强化学习