Skip to content
玛卡巴卡
Search
K
Main Navigation
首页
教程
ES6教程
Bash教程
TS教程
JS教程
C语言教程
Joyful-Pandas
笔记
李宏毅机器学习(2017 Spring)
深度学习500问
李宏毅机器学习(2021 Spring)
大语言模型
LLMs相关知识及面试题(wdndev)
关于
隐私政策
Appearance
相关文章
回到顶部
目录
07.强化学习
7.1 强化学习原理
策略梯度(pg)
近端策略优化(ppo)
7.2 RLHF
大模型RLHF:PPO原理与源码解读
DPO
7.3 一些题目
1.rlhf相关
2.强化学习