Skip to content

Search K

Main Navigation 首页

李宏毅机器学习(2017 Spring)

深度学习500问

李宏毅机器学习(2021 Spring)

LLMs相关知识及面试题(wdndev)

关于隐私政策

Appearance

Sidebar Navigation

大语言大模型

01.大语言模型基础

1.1 大模型发展历程

1.语言模型

1.2 分词与词向量

1.分词

2.jieba分词用法及原理

3.词性标注

4.句法分析

5.词向量

1.3 语言模型基础知识

Word2Vec

NLP三大特征抽取器（CNN/RNN/TF）

NLP面试题

LLM为什么Decoder only架构

1.4 深度学习

1.激活函数

1.5 一些题目

1.llm概念

02.大语言模型架构

2.1 Transformer模型

1.attention

2.layer_normalization

3.位置编码

4.tokenize分词

5.token及模型参数

6.激活函数

2.2 注意力

MHA_MQA_GQA

2.3 解码部分

解码策略

2.4 BERT

bert细节

Transformer架构细节

bert变种

2.5 常见大模型

llama系列模型

chatglm系列模型

llama 2代码详解

llama 3

2.6 MoE

1.MoE论文

2.MoE经典论文简牍

3.LLM MoE ：Switch Transformers

03.训练数据集

3.1 数据集

数据格式

04.分布式训练

4.1 基础知识

1.概述

2.数据并行

3.流水线并行

4.张量并行

5.序列并行

6.多维度混合并行

7.自动并行

8.moe并行

9.总结

4.2 DeepSpeed

deepspeed介绍

4.3 Megatron

4.4 训练加速

4.5 一些有用的文章

4.6 一些题目

1.分布式训练题目

2.显存问题

05.有监督微调

5.1 理论

1.基本概念

2.prompting

3.adapter-tuning

4.lora

5.总结

5.2 微调实战

llama2微调

ChatGLM3微调

5.3 一些题目

1.微调

2.预训练

06.推理

6.1 推理框架

0.llm推理框架简单总结

1.vllm

2.text_generation_inference

3.faster_transformer

4.trt_llm

6.2 推理优化技术

llm推理优化技术

6.3 量化

6.4 vLLM

6.5 一些题目

1.推理

07.强化学习

7.1 强化学习原理

策略梯度（pg）

近端策略优化(ppo)

7.2 RLHF

大模型RLHF：PPO原理与源码解读

DPO

7.3 一些题目

1.rlhf相关

2.强化学习

08.检索增强RAG

8.1 RAG

检索增强llm

rag（检索增强生成）技术

8.2 Agent

大模型agent技术

09.大语言模型评估

9.1 模型评估

1.评测

9.2 LLM幻觉

1.大模型幻觉

2.幻觉来源与缓解

10.大语言模型应用

10.1 思维链提示

1.思维链（cot）

10.2 LangChain框架

1.langchain

98.相关课程

98.1 清华大模型公开课

1.NLP&大模型基础

2.神经网络基础

3.Transformer基础

4.Prompt Tuning & Delta Tuning

5.高效训练&模型压缩

6.文本理解和生成大模型

99.参考资料

相关文章

暂无相关文章

目录

07.强化学习

7.1 强化学习原理

策略梯度（pg）

近端策略优化(ppo)

7.2 RLHF

大模型RLHF：PPO原理与源码解读

7.3 一些题目

永久链接：https://blog.makafly.com/llm/wdndev/07.强化学习/README.html

去 GitHub 上编辑内容

上次更新于:

Pager

上一篇1.推理

下一篇策略梯度（pg）