Skip to content

ForceInjection/forceinjection.github.io

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

69 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AI Fundamentals

本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

  • 适用人群:AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
  • 技术栈:CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。

Star History:

Star History Chart


1. 硬件架构与互连技术

涵盖单机基础计算芯片(GPU、TPU)设计原理,PCIe、NVLink 高速互连总线协议,GPUDirect 跨节点直通技术,以及 NVIDIA GB300 NVL72 等异构融合超级芯片的系统级架构与延迟金字塔模型。详细内容请访问:硬件架构与互连技术


2. AI 集群运维与高性能通信

构建高吞吐 AI 计算集群的完整运维体系,涵盖基于 Device Query、nvidia-smi 和 nvtop 的 GPU 状态监控,InfiniBand (IB) 网络架构与健康检查,以及 NCCL 分布式通信库的基准测试与多节点部署实战。详细内容请访问:AI 集群运维与通信


3. 云原生 AI 基础设施

基于 Kubernetes 的 AI 基础设施构建方案,涵盖 NVIDIA Container Toolkit 与 Device Plugin 底层机制、Kueue/HAMi 细粒度 GPU 资源切分与池化、LWS/llm-d 分布式推理调度,以及 JuiceFS、DeepSeek 3FS 等高性能分布式存储系统的架构实践。详细内容请访问:云原生 AI 平台

3.1 Kubernetes AI 基础设施

解析 Kubernetes AI 场景核心组件,包括容器运行时 GPU 支持底层机制、设备插件源码分析、Kueue 调度整合,以及基于 LWS 的大模型分布式训练与推理架构。

3.2 GPU 资源管理与虚拟化

提供异构算力环境下的 GPU 资源精细化管理方案,涵盖硬件级/内核态/用户态虚拟化机制、CUDA 流与 MPS 调度优化,并提供 HAMi 资源隔离与 Flex AI 的生产环境落地配置。

基础系列文档

HAMi 专题

代码实现与配置

  • 完整实现代码:GPU 调度器、虚拟化拦截与远程调用的参考实现代码
  • 配置文件集合:提供适用于生产环境和多云平台的完整部署与配置参考

3.3 高性能分布式存储

针对 AI 训练中海量小文件读取与跨节点共享的性能瓶颈,解析 JuiceFS 数据与元数据分离架构、DeepSeek 3FS 高性能设计及面向推理的 ICMS (KV Cache) 存储层机制。


4. 底层计算与异构编程

系统级 AI 底层编程路径,剖析 GPU 并行架构、CUDA 线程/网格与流处理机制、SIMT 与 Tile-Based (TileLang) 编程模型对比,以及基于 DOCA 框架的数据处理单元 (DPU) 核心编程范式。

4.1 GPU 与 CUDA 编程

涵盖 NVIDIA 容器镜像构建、CUDA 线程块/网格与流并发机制、SIMT 与 Tile-Based 编程模型对比、TileLang 算子开发,以及 nvbandwidth 显存与 PCIe 带宽调优实战,并链接 200+ Tensor Core/CUDA Core 优化内核的进阶学习资源。详细内容请访问:GPU 编程基础

开发环境配置

核心编程范式

Tile-Based 编程

性能分析与调优

进阶学习资源

4.2 DPU 编程

基于 DOCA 框架的数据处理单元 (DPU) 开发指南,解析架构组件与网络加速、零拷贝 DMA、控制平面卸载、压缩、NVMe 模拟及近数据处理等典型场景的编程实践。详细内容请访问:DPU 编程

  • DOCA 框架

5. 大语言模型应用开发与编排

探索以自然语言驱动与 Agent 自主决策为核心的 Software 3.0 开发范式,包含 OpenSpec 规范驱动开发、Spring AI 企业级 Java 接入、LangGraph 有状态多智能体图计算模型,以及 Coze/n8n 无代码工作流编排技术。详细的深度探讨可参考 大模型编程指南

5.1 AI 时代的软件工程:范式转移与重构

软件工程正向以 Agent First 与自主推理为核心的 Software 3.0 时代演进。本节梳理驾驭工程 (Harness Engineering) 体系,并演示基于 OpenSpec 的“意图 -> Spec -> AI -> 代码 & 验证”新一代规范驱动开发工作流。

  • Agent First:软件工程的下一个范式转移 - 梳理编程范式的演变历史,探讨 Agent First 的核心理念与实战指南。
  • 驾驭工程 - 深度解析如何构建驾驭系统,提升 AI 编程助手的可控性与效能。
  • OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。

5.2 Java AI 开发

剖析 Java 生态 AI 开发技术栈,通过 Spring AI 工程框架实现企业级 Java 应用对 LLM 能力的接入,并演示基于 Spring AI 构建高效 LLM 代理的工程实践。

5.3 LangGraph 开发

LangGraph 通过图计算模型解决 LLM 应用在循环逻辑与状态持久化上的瓶颈,提供状态机机制以支持多轮推理、自我反思的复杂 Agent 工作流构建(如 AI 客服系统 Notebook 实战)。

5.4 AI 工作流与编排

无代码/低代码(No-Code/Low-Code)AI 应用落地指南,包含 Coze 私有化部署配置、n8n 多智能体编排实践,以及 Dify、Ragflow 等主流开源编排平台的架构与商业许可对比。


6. 机器学习基础

基于 NJU 与 SJTU 课程资源的系统化学习路径,涵盖线性代数与概率论等数学基础、SVM 与 HMM 等核心算法数学原理(《统计学习方法》《PRML》),并提供心脏病预测与房价评估等项目驱动的代码实战。

6.1 动手学机器学习

结合特征工程、模型评估与超参数调优,系统讲解监督/无监督学习、集成学习、推荐系统与概率图模型,配套心脏病预测、鸢尾花分类与房价预测等项目完成从理论推导到工程化实战的完整闭环。

动手学机器学习 - 全面的机器学习学习资源库,包含理论讲解、代码实现和实战案例。

核心特色:

  • 理论与实践结合:以 NJU 课程为主线,辅以 SJTU 配套资源,从数学原理到代码实现的完整学习路径。
  • 算法全覆盖:涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习。
  • 项目驱动学习:提供心脏病预测、鸢尾花分类、房价预测等实战案例。
  • 工程化实践:深入特征工程、模型评估、超参数调优及特征选择。

6.2 参考资料

汇集 3Blue1Brown 线性代数可视化、MIT 18.06 线性代数课程、李航《统计学习方法》、周志华《机器学习》与 Bishop《PRML》等经典教材,以及 Andrew Ng Coursera 入门课程、Stanford CS229 进阶课程与 Kaggle 竞赛实战平台资源。

数学基础:

经典教材:

  • 《统计学习方法》 - 李航著,系统阐述感知机、SVM、HMM 等核心算法的数学原理。
  • 《机器学习》 - 周志华著(西瓜书),全面覆盖机器学习基础理论与范式。
  • 《模式识别与机器学习》 - Bishop 著(PRML),贝叶斯视角的机器学习圣经。

在线课程与实战:


7. 大语言模型理论与基础

LLM 核心理论与架构基石,深入解析 Tokenizer 分词机制、Embedding 向量表示学习、混合专家模型 (MoE) 与模型压缩量化技术,并前瞻思维链 (CoT) 推理增强、基于 LLM 的意图识别及 Deep Research (深度研究) 前沿应用架构。

详细内容请访问:LLM 理论与基础 - 核心文档门户,涵盖基础理论、深度研究与工作流编排。

7.1 基础理论与概念

拆解 LLM 底层运作机制,包括 Tiktokenizer 分词编码、大模型文件格式存储规范、Chain-of-Thought (CoT) 逻辑推理增强技术,以及模型幻觉 (Hallucination) 的成因分析与工程化应对策略。

7.2 嵌入技术与表示学习

离散文本到连续向量的表示学习体系,解析 Text Embeddings 的演变历史、距离度量算法,以及独立 Embedding 模型与 LLM 原生 Embedding 层的架构选型与应用权衡。

7.3 高级架构与应用技术

探索提升模型性能与压缩比的关键技术,通过可视化指南解析 MoE 稀疏激活原理与量化加速机制,并结合 ChatBox 实战剖析基于 LLM 的语义理解与意图检测系统设计。

7.4 Deep Research 深度研究

多步推理规划在复杂信息检索中的应用,解构 DeepWiki、通义 DeepResearch 与 Cursor DeepSearch 等主流系统架构,并提供面向科研助手与复杂订单履约场景的 Agent 需求分析与架构设计方案。

7.5 工作流编排与应用平台 (Workflow)

将 LLM 能力转化为自动化业务流,横向评测 Dify、AnythingLLM 等开源应用编排平台功能与商用许可,并提供基于 Coze 与 n8n 构建多智能体系统的私有化部署实践。

7.6 参考书籍

精选《大模型技术 30 讲》《Hands-On Large Language Models》《百面大模型》等著作,涵盖从 Transformer 理论解构、模型从零预训练到全栈工程落地的系统性阅读指南。


8. 大模型训练

涵盖从 SFT 监督微调到大规模预训练的完整工程路径,结合 70B 模型从零训练实战,剖析数据清洗、硬件集群配置、超参数优化 (CARBS) ,以及面向 AIOps 场景的 Kubernetes 模型后训练 (Post-Training) 与评估框架设计。详细指南可参考:模型训练与微调总览

8.1 指令微调与监督学习

基于高质量指令-响应数据的模型行为对齐技术,包含 Qwen 2 大模型的微调 Notebook 实战,以及垂直领域模型 SFT 的理论指南与最佳实践。

8.2 大规模模型训练实践

复盘 70B 参数模型从零训练全生命周期,深度解析开源数据集清洗与评估策略、裸金属基础设施配置与自动化脚本,以及扩展至超大规模参数的优化器选型策略。

8.3 模型后训练与评估

保障模型生产环境表现的评估体系,解析 AIOps 后训练策略、基于 Kubernetes 的自动化模型评估框架构建,以及基准测试数据集的生成方法。


9. 大模型推理

企业级大模型推理系统落地指南,解构 Mooncake 以 KV Cache 为中心的调度架构、vLLM/llm-d 核心推理框架底层机制,深度剖析 LMCache 多层存储体系与 Tair 跨实例缓存共享,并提供 DeepSeek 等前沿模型在多硬件平台的部署调优实践。

9.1 推理系统架构设计

剖析现代推理系统的底层架构创新,重点解构 Mooncake 等以 KV Cache 为中心的高效 LLM 调度系统设计模式与性能调优策略。

9.2 核心框架与平台

云原生推理基础设施全景,涵盖基于 LWS 的 Kubernetes 多机多卡分布式推理调度,以及高性能 llm-d 框架在不同集群规模下的技术选型与最佳实践。

9.3 KV Cache 核心技术

长文本与高并发推理的核心瓶颈突破,解析自回归生成机制、Prefix Caching 前缀缓存与 RadixTree 自动复用原理,并深度对比 LMCache 分层架构与阿里云 Tair KVCache 的企业级分布式部署方案。

9.3.1 LMCache 核心架构与后端实现

本小节详细解析 LMCache 的四层存储架构及其在跨实例缓存复用中的技术细节。

基础与架构概览

核心运行时组件

存储后端实现

控制面

高级特性

9.3.2 阿里云 Tair KVCache

本小节介绍阿里云企业级的 KVCache 管理系统架构及大规模部署实践。

9.3.3 SGLang HiCache

9.4 推理优化技术体系

多维度提升推理吞吐的系统级技术,包含 vLLM 注意力机制演进 (MLA/NSA)、CUDA Graphs 与 Hybrid KV Cache 管理,结合参数显存占用估算、KV Block Manager 内存机制与 Layer-wise 流水线进行深度调优。

vLLM 核心机制分析

显存与缓存优化

网络与模型工具

9.5 推理优化参考设计

企业级 LLM 推理服务全流程实施指南,从集群规模特征评估、异构执行图调度架构设计,到边缘设备/多模态模型专项优化,并提供安全合规、指标体系与上线检查清单。

基础理论与技术选型

架构设计与评估体系

专业领域优化

实施落地与运维

9.6 模型部署与运维实践

跨硬件平台的模型服务化落地指南,涵盖 Mac 本地 DeepSeek-R1 运行、Ollama 架构原理,以及 DeepSeek-V3 MoE 在 H20 硬件与 Qwen2-VL 在华为昇腾上的专项部署调优。

9.7 DeepSeek 专题

DeepSeek 模型极致性能优化实战,深度解析 vLLM 宽端点 (Wide Endpoint) 专有并行架构,以及在 Blackwell 等下一代高性能计算平台上的可扩展性评估与部署策略。


10. 企业级 AI Agent 开发

构建生产级 AI Agent 的系统化指南,涵盖 BDI 认知理论、ReAct/12-Factor 等架构模式,深度拆解动态上下文工程、MemoryOS 多层记忆架构与 MCP 互操作协议,并提供基于 LangGraph 的企业级多智能体系统与 Kagent 基础设施演进分析。

详细内容请访问:AI Agent 开发与实践 - 核心文档门户,涵盖理论、架构与实战。

10.1 核心理论与架构设计

解析多智能体协作机制与企业级落地框架,包含 ReAct 推理机制、复杂写作/指代消解系统设计模式,并深度剖析世界模型认知引擎与 Data Agent 数据智能体的新兴架构范式。

多智能体系统

智能体设计模式

数据智能体 (Data Agents)

认知与基础理论

10.2 核心工程组件与基础设施

解构构建高可靠 Agent 的底层支撑体系,涵盖动态上下文组装与压缩工程、Claude/Mem0 记忆架构机制、MCP 工具互操作协议规范,以及 Agent Sandbox 与 Kubernetes 运维智能体基础设施演进。

上下文与记忆系统

工具及协议

Agent Skill

  • Claude Skills 开发指南 - 扩展智能体能力的工具定义规范与最佳实践
  • Agent Skill 开发指南 - 由原力注入博主维护的优秀认知技能(Agent Skill)合集,包含深度代码阅读、架构分析、文档评审等自动化工作流。
  • CUDA Code Skill - 面向 AI IDE(Claude Code、Trae 等)的 CUDA 知识增强代码生成与性能分析技能库。
  • mmx-cli - MiniMax AI 平台的 CLI 技能,支持文本、图片、视频、语音、音乐生成与 Web 搜索,遵循 agentskills.io 标准。

AI Agent Infra

10.3 实战代码与演示项目

从理论走向落地的工程实践代码库,包含基于异步通信总线的企业级多智能体系统、多轮指代消解微服务、MCP 客户端/服务端交互 Demo,以及结合 LangChain 的记忆功能与 PDF 智能翻译器实现。

完整端到端系统

专项工具与演示

10.4 前沿学术与行业研究

汇集 24 种主流 Agent Workflow 模式综述、Deep Research 深度研究架构等核心学术论文,以及 2025 年度 LangChain 开发者诉求与 Agent 工程化现状等权威行业报告。

学术论文

行业报告


11. 检索增强生成与文档智能

解构从非结构化数据解析到高可信知识库构建的完整技术栈,涵盖 Naive/Advanced RAG 架构演进、Embedding 选型与 Chunking 策略,并深入 GraphRAG (Neo4j/KAG) 复杂关系推理与 MinerU/Marker 等文档智能解析引擎应用。

详细内容请访问:rag 与工具生态 - 核心文档门户,涵盖 RAGGraphRAG 与文档智能工具。

11.1 检索增强生成基础与进阶

RAG 技术全景演进导航,对比不同检索架构优劣势,系统评估文本分块 (Chunking) 策略,并提供面向中文场景的 Embedding 模型深度评测与选型指南。

11.2 图检索增强生成与知识图谱

解决复杂多跳关系推理难题的图计算架构,深度解析 GraphRAG 核心概念与 KAG 框架,并提供图数据库 Neo4j 安装配置与 Cypher 查询语言的实战教程。

11.3 大模型与知识图谱协同应用

构建高可信、可解释智能应用的最佳实践,结合完整源码与图谱数据,深入剖析基于 LLM+KG 架构的银行反电诈智能风控系统设计方案。

11.4 文档智能解析

突破 RAG 系统的数据质量瓶颈,解析 MinerU 与 Marker 等基于深度学习的复杂 PDF 布局检测与公式提取引擎,以及 Microsoft MarkItDown 跨格式文档转换工具。

  • mineru 文档解析 - 上海人工智能实验室开源工具,助力复杂 PDF 高效解析
  • marker pdf 布局检测 - 基于深度学习的高精度 PDF 解析与布局分析引擎
  • markitdown 入门 - Microsoft 开源的文档转换工具,支持多种办公文档格式到 Markdown 的高质量转换

12. 课程体系与学习路径

系统化学习路径与进阶指南集合,包含 ZOMI 酱 AI System 全栈硬件架构、大模型底层原理与演进基础、Trae AI 辅助编程实战,以及基于 LangGraph 的企业级多智能体系统培训资源。

12.1 AI System 全栈课程(ZOMI 酱)

ZOMI 酱主导的高分开源 AI 基础设施架构体系,从底层 AI 芯片架构、硬件加速器到 AI 编译器原理、推理性能调优与分布式框架设计进行深度解构。

AISystem - AI 系统全栈课程代码与资料库。

  • 系统介绍 - AI 系统概述、发展历程与技术演进路径。
  • 硬件基础 - AI 芯片架构、硬件加速器与计算平台深度解析。
  • 编译器技术 - AI 编译器原理、优化技术与工程实践。
  • 推理优化 - 模型推理加速技术、性能调优与部署策略。
  • 框架设计 - AI 框架架构设计、分布式计算与并行优化。

12.2 AI Infra 基础课程(入门)

面向初学者的大模型入门知识体系,涵盖 Transformer 架构原理、GPT-3/4 与 PaLM 等模型的规模与训练成本分析、DeepSeek V1/V2/R1 技术演进(MLA 与 MoE 稀疏化)、能力涌现现象研究,以及 GPU 架构/CUDA 编程与云原生 AI 基础设施运维实践。

  • 大模型原理与最新进展 - 交互式在线课程平台。
  • AI 编程入门 - AI 编程基础知识与应用入门。
  • AI Infra 课程演讲稿 - 完整的课程演讲内容、技术要点与实践案例。
  • 学习目标:深入理解大模型工作原理、最新技术进展与企业级应用实践。
  • 核心内容
    • Transformer 架构深度解析:编码器-解码器结构、多头注意力机制、文本生成过程。
    • 训练规模与成本分析:GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求。
    • DeepSeek 技术突破:V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化。
    • 能力涌现现象研究:规模效应、临界点突破、多模态融合发展趋势。
    • AI 编程工具生态:GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践。
    • GPU 架构与 CUDA 编程:硬件基础、并行计算原理、性能优化策略。
    • 云原生 AI 基础设施:现代化 AI 基础设施设计、容器化部署与运维实践。

12.3 Trae 编程实战课程

系统掌握 AI 辅助开发工作流,从 IDE 环境配置与交互模式,进阶至 Web 开发、数据库设计与 DevOps 微服务架构等复杂场景的实战演练。

课程结构:

  • 第一部分:Trae 基础入门:环境配置、交互模式、HelloWorld 项目实战。
  • 第二部分:常见编程场景实战:前端开发、Web 开发、后端 API、数据库设计、安全认证。
  • 第三部分:高级应用场景:AI 模型集成、实时通信、数据分析、微服务架构。
  • 第四部分:团队协作与最佳实践:代码质量管理、项目管理、性能优化、DevOps 实践。
  • 第五部分:综合项目实战:企业级应用开发、核心功能实现、部署运维实战。

12.4 多智能体 AI 系统培训

面向企业研发团队的生产级架构指南,深度解析 LangGraph 核心调度机制、LangSmith 监控平台集成以及企业级 Multi-Agent 架构设计模式。

12.5 微软 AI Agents for Beginners 课程

由微软提供的初学者课程,旨在帮助学习者全面了解 AI Agent 的构建与应用。

  • [AI Agents for Beginners 课程之 AI Agent及使用场景简介](10_ai_related_course/AI Agents for Beginners 课程之 AI Agent及使用场景简介.md) - 涵盖 AI Agent 基础概念、开发框架、设计模式与应用场景。

Buy Me a Coffee

如果您觉得本项目对您有帮助,欢迎购买我一杯咖啡,支持我继续创作和维护。

微信 支付宝
wechat alipay

About

Github pages for Force Injection

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors