Appearance
1.attention
2.layer_normalization
3.位置编码
4.tokenize分词
5.token及模型参数
6.激活函数
MHA_MQA_GQA
解码策略(Top-k & Top-p & Temperature)
bert细节
Transformer架构细节
bert变种
llama系列模型
chatglm系列模型
llama 2代码详解
llama 3
1.MoE论文
2.MoE经典论文简牍
3.LLM MoE :Switch Transformers