这是一门本科级别的课程,引导学生训练自己的AI,非常类似于一个小型的AI教学助手
在这门课程中,我们将构建一个讲故事的人工智能大语言模型(LLM)。你将能够与AI携手创建、完善和展示小故事。我们将从基础开始,构建一个类似于ChatGPT的功能性Web应用程序,使用Python、C和CUDA,从头开始,并且对计算机科学的预备知识要求较少。到课程结束时,你应该对AI、大语言模型和深度学习有相对深入的理解。
课程大纲
第01章 双词语言模型(语言建模)
第02章 微型梯度(机器学习,反向传播)
第03章 N元模型(多层感知器,矩阵乘法,GELU)
第04章 注意力机制(注意力机制,Softmax,位置编码器)
第05章 Transformer(Transformer,残差连接,层归一化,GPT-2)
第06章 分词(minBPE,字节对编码)
第07章 优化(初始化,优化,AdamW)
第08章 速度需求I:设备(设备,CPU,GPU等)
第09章 速度需求II:精度(混合精度训练,fp16,bf16,fp8等)
第10章 速度需求III:分布式(分布式优化,DDP,ZeRO)
第11章 数据集(数据集,数据加载,合成数据生成)
第12章 推理I:kv缓存(kv缓存)
第13章 推理II:量化(量化)
第14章 微调I:监督微调(SFT,PEFT,LoRA,对话)
第15章 微调II:强化学习(强化学习,RLHF,PPO,DPO)
第16章 部署(API,Web应用)
第17章 多模态(VQVAE,扩散Transformer)
附录
在上述进程中进一步研究的主题:
编程语言:汇编、C、Python
数据类型:整数、浮点数、字符串(ASCII、Unicode、UTF-8)
张量:形状、视图、步幅、连续性等
深度学习框架:PyTorch、JAX
神经网络架构:GPT(1、2、3、4)、Llama(RoPE、RMSNorm、GQA)、MoE等
多模态:图像、音频、视频、VQVAE、VQGAN、扩散模型