一个系统化的 AI 学习资源平台,涵盖大语言模型的基础理论、预训练、后训练和智能体应用等前沿研究。
🌐 在线访问: https://bobwang21.github.io/learning/
本学习平台分为三个主要学习方向:
大语言模型与智能体的系统化学习路径,包括基础理论和前沿应用。
-
1. Model - 大语言模型的基础架构与设计原理
-
2. Pre-training - 预训练阶段的关键技术与方法
-
3. Post-training - 后训练阶段的优化与对齐方法
- Post-Training 全景指南 - 从 RLHF 到 GRPO 再到 Agentic RL
- PEFT 详解 - 参数高效微调技术
- Tools - Function Calling、MCP 和 Skills 详解
- Planning - ReAct、Plan-and-Solve 等规划框架
- Memory - 智能体的记忆机制
- Self-Evolving - 自我进化智能体的调查
- Multi-Agent - 多智能体系统的设计与优化
- RAG - 检索增强生成完全指南
- LLM Agent Survey - LLM 智能体的全面调查
- Agentic Reasoning - 智能体的推理能力
- Knowledge Graph - 知识图谱与智能体
- Tree of Thoughts - 思维树推理方法
- Agentic RL - 智能体强化学习
预测与决策结合的范式 - 系统梳理三大主流范式(SO、E2E、DL)的理论基础、优势和局限。
时序模型调研 - 系统梳理了深度学习模型和大模型在时间序列预测中的应用。
- 克隆仓库
git clone https://github.com/BobWang21/learning.git
cd learning- 用浏览器打开
index.html
open index.html # macOS
# 或在 Windows 中双击 index.html访问 GitHub Pages: https://bobwang21.github.io/learning/
- 🎨 现代化设计 - 清爽的界面,支持深色侧边栏导航
- 📱 响应式布局 - 完全支持移动设备和各种屏幕尺寸
- 🔗 完整导航 - 统一的侧边栏导航贯穿所有页面
- 📑 自动目录 - 每个页面都有自动生成的目录(TOC)
- 🎯 快速访问 - 卡片直接导航,无需额外按钮
- 💾 离线阅读 - 所有资源本地存储,支持离线访问
learning/
├── index.html # 首页
├── styles.css # 全局样式
├── README.md # 本文件
│
├── 🤖 AI 研究
│ ├── ai-model.html # 1. Model
│ │ ├── ai-model-gpt-principles.html # GPT 模型原理
│ │ └── ai-model-attention-mechanism.html # 注意力机制
│ │
│ ├── ai-pretraining.html # 2. Pre-training
│ │ └── ai-pretraining-token-bpe.html # token-BPE 算法
│ │
│ ├── ai-posttraining.html # 3. Post-training
│ │ ├── ai-posttraining-overview.html # Post-Training 全景指南
│ │ └── ai-posttraining-peft.html # PEFT 详解
│ │
│ └── ai-agent.html # 4. Agent
│ ├── ai-agent-function-calling.html # Tools
│ ├── ai-agent-llm-survey.html # LLM Agent Survey
│ ├── ai-agent-agentic-reasoning.html # Agentic Reasoning
│ ├── ai-agent-memory.html # Memory
│ ├── ai-agent-self-evolving.html # Self-Evolving
│ ├── ai-agent-multi-agent.html # Multi-Agent Systems
│ ├── ai-agent-agentic-rl.html # Agentic RL
│ ├── ai-agent-knowledge-graph.html # Knowledge Graph
│ ├── ai-agent-rag.html # RAG
│ └── ai-agent-tree-of-thoughts.html # Tree of Thoughts
│
├── 🔄 端到端
│ └── decision.html # 预测与决策结合的范式
│
└── ⏱️ 预测
└── models.html # 时序模型调研
- 模型架构与设计原理
- Transformer 的演进
- 注意力机制的深度理解
- GPT、BERT 等经典模型
- Tokenization 与 BPE 算法
- 大规模语言模型预训练
- 数据处理与优化
- 预训练的最佳实践
- SFT (Supervised Fine-Tuning) - 监督微调
- RLHF (Reinforcement Learning from Human Feedback) - 人类反馈强化学习
- DPO (Direct Preference Optimization) - 直接偏好优化
- GRPO (Group Relative Policy Optimization) - 组相对策略优化
- RLVR (Reinforcement Learning with Verifiable Rewards) - 可验证奖励强化学习
- PPO (Proximal Policy Optimization) - 近端策略优化
- PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调
- LoRA (Low-Rank Adaptation)
- QLoRA (Quantized LoRA)
- Prefix Tuning
- Adapter
- Function Calling - 函数调用机制
- MCP - Model Context Protocol
- Skills - 智能体技能系统
- ReAct - Reasoning + Acting
- Plan-and-Solve - 规划与求解
- Tree of Thoughts - 思维树
- Agentic Reasoning - 智能体推理
- Memory - 短期、长期、工作记忆
- Self-Evolving - 自我进化能力
- Agentic RL - 强化学习
- RAG - 检索增强生成
- Multi-Agent - 多智能体协作
- Knowledge Graph - 知识图谱集成
- LLM Agent Survey - 智能体调查综述
- 预测与决策的结合
- SPO (Smart Predict-then-Optimize)
- 隐式微分方法
- 近似方法
- 深度学习模型(TFT、NBEATSx、PatchTST、TiDE 等)
- 大模型应用(TimesFM、Chronos、Moirai 等)
- 模型对比与性能评估
Pre-training (预训练)
↓
Post-training (后训练)
├── SFT (监督微调)
├── RL (强化学习)
└── 偏好优化 (DPO/GRPO/RLVR)
↓
Deployment (部署应用)
├── Fine-tuning (PEFT)
├── Agent (智能体)
└── RAG (知识增强)
| 方法 | 类型 | 特点 | 应用场景 |
|---|---|---|---|
| SFT | 监督学习 | 基础、直接 | 初始对齐 |
| RLHF | 强化学习 | 需要 Reward Model | 人类偏好对齐 |
| DPO | 离线优化 | 无需 Reward Model | 直接偏好学习 |
| GRPO | 在线 RL | 轻量级、高效 | 大规模训练 |
| RLVR | 验证奖励 | 可验证性强 | 推理任务 |
- 从 Model 开始,理解 Transformer 和注意力机制
- 学习 Pre-training 中的基础概念
- 浏览 Post-training 的直观理解部分
- 深入学习 Post-training 的核心方法
- 探索 Agent 中的规划和推理能力
- 理解 RAG 和知识增强
- 全面学习所有 Post-training 技术
- 深入研究 Agent 的各个方向
- 关注最新的 Agentic RL 和 Self-Evolving 研究
- 总页面数: 23 个
- 主要类别: 7 个(首页 + 3 个基座 + 10 个 Agent + 2 个其他)
- 文章总数: 16 个子页面
- 内容覆盖:
- AI 基础:4 个页面
- AI Agent:10 个页面
- 端到端学习:1 个页面
- 时间序列预测:1 个页面
- 2026-04-13 - 完成 Post-Training 全景指南的上传,包含 5 张图片、6 个表格和完整的参考文献
- 2026-04- - 优化卡片导航,实现直接点击访问
- 2026-04- - 添加页面目录(TOC)功能到所有子页面
- 2026-03- - 完成 AI Agent 10 个子页面的创建
- 2026-03- - 建立学习平台的基本框架
欢迎提交 Issue 和 Pull Request 来改进这个学习平台!
- Fork 本仓库
- 创建您的特性分支 (
git checkout -b feature/AmazingFeature) - 提交您的更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 开启一个 Pull Request
本项目采用 MIT 许可证 - 详见 LICENSE 文件
- GitHub: BobWang21
- 项目链接: https://github.com/BobWang21/learning
- 在线平台: https://bobwang21.github.io/learning/
感谢所有为这个学习平台做出贡献的研究者和开发者!
最后更新: 2026-04-13