📚 AI 学习平台

一个系统化的 AI 学习资源平台，涵盖大语言模型的基础理论、预训练、后训练和智能体应用等前沿研究。

🌐 在线访问: https://bobwang21.github.io/learning/

📋 平台概览

本学习平台分为三个主要学习方向：

🤖 AI 研究

大语言模型与智能体的系统化学习路径，包括基础理论和前沿应用。

🏗️ 基座（Foundation）

1. Model - 大语言模型的基础架构与设计原理
- GPT 模型原理
- 注意力机制
2. Pre-training - 预训练阶段的关键技术与方法
- token-BPE 算法
3. Post-training - 后训练阶段的优化与对齐方法
- Post-Training 全景指南 - 从 RLHF 到 GRPO 再到 Agentic RL
- PEFT 详解 - 参数高效微调技术

🤖 Agent（智能体）

Tools - Function Calling、MCP 和 Skills 详解
Planning - ReAct、Plan-and-Solve 等规划框架
Memory - 智能体的记忆机制
Self-Evolving - 自我进化智能体的调查
Multi-Agent - 多智能体系统的设计与优化
RAG - 检索增强生成完全指南
LLM Agent Survey - LLM 智能体的全面调查
Agentic Reasoning - 智能体的推理能力
Knowledge Graph - 知识图谱与智能体
Tree of Thoughts - 思维树推理方法
Agentic RL - 智能体强化学习

🔄 端到端（End-to-End）

预测与决策结合的范式 - 系统梳理三大主流范式（SO、E2E、DL）的理论基础、优势和局限。

⏱️ 预测（Time Series）

时序模型调研 - 系统梳理了深度学习模型和大模型在时间序列预测中的应用。

🚀 快速开始

本地查看

克隆仓库

git clone https://github.com/BobWang21/learning.git
cd learning

用浏览器打开 index.html

open index.html  # macOS
# 或在 Windows 中双击 index.html

在线查看

访问 GitHub Pages: https://bobwang21.github.io/learning/

✨ 主要特性

🎨 现代化设计 - 清爽的界面，支持深色侧边栏导航
📱 响应式布局 - 完全支持移动设备和各种屏幕尺寸
🔗 完整导航 - 统一的侧边栏导航贯穿所有页面
📑 自动目录 - 每个页面都有自动生成的目录（TOC）
🎯 快速访问 - 卡片直接导航，无需额外按钮
💾 离线阅读 - 所有资源本地存储，支持离线访问

📁 项目结构

learning/
├── index.html                              # 首页
├── styles.css                              # 全局样式
├── README.md                               # 本文件
│
├── 🤖 AI 研究
│   ├── ai-model.html                       # 1. Model
│   │   ├── ai-model-gpt-principles.html    # GPT 模型原理
│   │   └── ai-model-attention-mechanism.html # 注意力机制
│   │
│   ├── ai-pretraining.html                 # 2. Pre-training
│   │   └── ai-pretraining-token-bpe.html   # token-BPE 算法
│   │
│   ├── ai-posttraining.html                # 3. Post-training
│   │   ├── ai-posttraining-overview.html   # Post-Training 全景指南
│   │   └── ai-posttraining-peft.html       # PEFT 详解
│   │
│   └── ai-agent.html                       # 4. Agent
│       ├── ai-agent-function-calling.html  # Tools
│       ├── ai-agent-llm-survey.html        # LLM Agent Survey
│       ├── ai-agent-agentic-reasoning.html # Agentic Reasoning
│       ├── ai-agent-memory.html            # Memory
│       ├── ai-agent-self-evolving.html     # Self-Evolving
│       ├── ai-agent-multi-agent.html       # Multi-Agent Systems
│       ├── ai-agent-agentic-rl.html        # Agentic RL
│       ├── ai-agent-knowledge-graph.html   # Knowledge Graph
│       ├── ai-agent-rag.html               # RAG
│       └── ai-agent-tree-of-thoughts.html  # Tree of Thoughts
│
├── 🔄 端到端
│   └── decision.html                       # 预测与决策结合的范式
│
└── ⏱️ 预测
    └── models.html                         # 时序模型调研

📚 核心内容

AI 基座（Foundation）

1. Model - 大语言模型基础

模型架构与设计原理
Transformer 的演进
注意力机制的深度理解
GPT、BERT 等经典模型

2. Pre-training - 预训练技术

Tokenization 与 BPE 算法
大规模语言模型预训练
数据处理与优化
预训练的最佳实践

3. Post-training - 后训练优化

SFT (Supervised Fine-Tuning) - 监督微调
RLHF (Reinforcement Learning from Human Feedback) - 人类反馈强化学习
DPO (Direct Preference Optimization) - 直接偏好优化
GRPO (Group Relative Policy Optimization) - 组相对策略优化
RLVR (Reinforcement Learning with Verifiable Rewards) - 可验证奖励强化学习
PPO (Proximal Policy Optimization) - 近端策略优化
PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调
- LoRA (Low-Rank Adaptation)
- QLoRA (Quantized LoRA)
- Prefix Tuning
- Adapter

AI Agent（智能体）

工具与能力

Function Calling - 函数调用机制
MCP - Model Context Protocol
Skills - 智能体技能系统

规划与推理

ReAct - Reasoning + Acting
Plan-and-Solve - 规划与求解
Tree of Thoughts - 思维树
Agentic Reasoning - 智能体推理

记忆与学习

Memory - 短期、长期、工作记忆
Self-Evolving - 自我进化能力
Agentic RL - 强化学习

高级能力

RAG - 检索增强生成
Multi-Agent - 多智能体协作
Knowledge Graph - 知识图谱集成
LLM Agent Survey - 智能体调查综述

端到端学习（E2E）

预测与决策的结合
SPO (Smart Predict-then-Optimize)
隐式微分方法
近似方法

时间序列预测

深度学习模型（TFT、NBEATSx、PatchTST、TiDE 等）
大模型应用（TimesFM、Chronos、Moirai 等）
模型对比与性能评估

🔑 关键概念

LLM 训练流程

Pre-training (预训练)
    ↓
Post-training (后训练)
    ├── SFT (监督微调)
    ├── RL (强化学习)
    └── 偏好优化 (DPO/GRPO/RLVR)
    ↓
Deployment (部署应用)
    ├── Fine-tuning (PEFT)
    ├── Agent (智能体)
    └── RAG (知识增强)

后训练方法对比

方法	类型	特点	应用场景
SFT	监督学习	基础、直接	初始对齐
RLHF	强化学习	需要 Reward Model	人类偏好对齐
DPO	离线优化	无需 Reward Model	直接偏好学习
GRPO	在线 RL	轻量级、高效	大规模训练
RLVR	验证奖励	可验证性强	推理任务

🌟 学习路径建议

初学者

从 Model 开始，理解 Transformer 和注意力机制
学习 Pre-training 中的基础概念
浏览 Post-training 的直观理解部分

进阶学习者

深入学习 Post-training 的核心方法
探索 Agent 中的规划和推理能力
理解 RAG 和知识增强

研究者

全面学习所有 Post-training 技术
深入研究 Agent 的各个方向
关注最新的 Agentic RL 和 Self-Evolving 研究

📊 统计信息

总页面数: 23 个
主要类别: 7 个（首页 + 3 个基座 + 10 个 Agent + 2 个其他）
文章总数: 16 个子页面
内容覆盖:
- AI 基础：4 个页面
- AI Agent：10 个页面
- 端到端学习：1 个页面
- 时间序列预测：1 个页面

🔄 更新日志

2026-04-13 - 完成 Post-Training 全景指南的上传，包含 5 张图片、6 个表格和完整的参考文献
2026-04- - 优化卡片导航，实现直接点击访问
2026-04- - 添加页面目录（TOC）功能到所有子页面
2026-03- - 完成 AI Agent 10 个子页面的创建
2026-03- - 建立学习平台的基本框架

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个学习平台！

如何贡献

Fork 本仓库
创建您的特性分支 (git checkout -b feature/AmazingFeature)
提交您的更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
开启一个 Pull Request

📝 许可证

本项目采用 MIT 许可证 - 详见 LICENSE 文件

📞 联系方式

GitHub: BobWang21
项目链接: https://github.com/BobWang21/learning
在线平台: https://bobwang21.github.io/learning/

🎓 致谢

感谢所有为这个学习平台做出贡献的研究者和开发者！

最后更新: 2026-04-13

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
images		images
.gitignore		.gitignore
CHECKLIST.md		CHECKLIST.md
CREATE_REPO.md		CREATE_REPO.md
DEPLOY.md		DEPLOY.md
ENABLE_PAGES.md		ENABLE_PAGES.md
FINAL_SUMMARY.md		FINAL_SUMMARY.md
FIX_404.md		FIX_404.md
PROJECT_SUMMARY.txt		PROJECT_SUMMARY.txt
QUICK_START.md		QUICK_START.md
README.md		README.md
a.html		a.html
a.md		a.md
a_pandoc_backup.html		a_pandoc_backup.html
add_toc.py		add_toc.py
add_toc_to_remaining.py		add_toc_to_remaining.py
ai-agent-agentic-reasoning.html		ai-agent-agentic-reasoning.html
ai-agent-agentic-rl.html		ai-agent-agentic-rl.html
ai-agent-function-calling.html		ai-agent-function-calling.html
ai-agent-knowledge-graph.html		ai-agent-knowledge-graph.html
ai-agent-llm-survey.html		ai-agent-llm-survey.html
ai-agent-memory.html		ai-agent-memory.html
ai-agent-multi-agent.html		ai-agent-multi-agent.html
ai-agent-rag.html		ai-agent-rag.html
ai-agent-self-evolving.html		ai-agent-self-evolving.html
ai-agent-tree-of-thoughts.html		ai-agent-tree-of-thoughts.html
ai-agent.html		ai-agent.html
ai-claude-tips.html		ai-claude-tips.html
ai-model-attention-mechanism.html		ai-model-attention-mechanism.html
ai-model-gpt-principles.html		ai-model-gpt-principles.html
ai-model.html		ai-model.html
ai-posttraining-overview.html		ai-posttraining-overview.html
ai-posttraining-peft.html		ai-posttraining-peft.html
ai-posttraining.html		ai-posttraining.html
ai-pretraining-token-bpe.html		ai-pretraining-token-bpe.html
ai-pretraining.html		ai-pretraining.html
batch_add_editor.py		batch_add_editor.py
cread.html		cread.html
create_repo.sh		create_repo.sh
decision.html		decision.html
dfl.html		dfl.html
e2e-industry-practice.html		e2e-industry-practice.html
editor.css		editor.css
editor.js		editor.js
enable_pages.sh		enable_pages.sh
fix_sidebar.py		fix_sidebar.py
index.html		index.html
llm_or_application.html		llm_or_application.html
models.html		models.html
patch-pros-cons.html		patch-pros-cons.html
r-dfl.html		r-dfl.html
remove_article_links.py		remove_article_links.py
styles.css		styles.css
test-api-direct.html		test-api-direct.html
test-editor.html		test-editor.html

Folders and files

Latest commit

History

Repository files navigation

📚 AI 学习平台

📋 平台概览

🤖 AI 研究

🏗️ 基座（Foundation）

🤖 Agent（智能体）

🔄 端到端（End-to-End）

⏱️ 预测（Time Series）

🚀 快速开始

本地查看

在线查看

✨ 主要特性

📁 项目结构

📚 核心内容

AI 基座（Foundation）

1. Model - 大语言模型基础

2. Pre-training - 预训练技术

3. Post-training - 后训练优化

AI Agent（智能体）

工具与能力

规划与推理

记忆与学习

高级能力

端到端学习（E2E）

时间序列预测

🔑 关键概念

LLM 训练流程

后训练方法对比

🌟 学习路径建议

初学者

进阶学习者

研究者

📊 统计信息

🔄 更新日志

🤝 贡献

如何贡献

📝 许可证

📞 联系方式

🎓 致谢

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages