Skip to content

openmlsys/openmlsys

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

270 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

OpenMLSys Logo

CI Book Online License GitHub Stars

中文 | English


机器学习系统:设计和实现

本开源项目讲解现代机器学习系统的设计原理和实现经验,涵盖从编程接口、计算图、编译器到分布式训练的完整技术栈。

在线阅读: openmlsys.github.io

目录

适用读者

  • 学生:掌握机器学习基础理论后,希望深入了解现代机器学习系统设计与实现的同学。
  • 科研人员:需要开发自定义算子(Custom Operators)或利用分布式执行实现大模型的研究者。
  • 开发人员:负责机器学习基础设施建设,需要对系统性能调优和深度定制的工程师。

内容介绍

本书(第二版)共分9章:

章节 内容
第1章 导论 机器学习系统架构和技术栈概述
第2章 编程接口与计算图 张量抽象、自动微分、图表示与执行
第3章 AI加速器与编程 GPU 架构与 CUDA/Triton/CUTLASS 编程模型
第4章 AI编译器与运行时系统 IR 设计、图优化、算子生成与运行时执行
第5章 数据处理系统 数据加载、数据管道和分布式数据处理
第6章 训练系统 单节点与分布式训练、并行策略与训练优化
第7章 模型服务 推理优化、在线服务与模型管理
第8章 强化学习系统 强化学习管道、环境交互与 RL 系统设计
第9章 大规模GPU集群管理 GPU 调度、资源管理与大规模训练基础设施

更新日志

日期 事件
2022-01 项目初始化,开始中文内容编写
2022-05 完成扩展篇各章节(联邦学习、强化学习、可解释 AI)
2023-05 适配 MindSpore 2.0
2026-03 中英文双语构建架构重构;启动英文版

构建指南

环境依赖

  • curl
  • git
  • Python 3

安装步骤

# 克隆仓库
git clone https://github.com/openmlsys/openmlsys-zh.git
cd openmlsys-zh

# 安装rust toolchain 
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

# 安装mdbook
cargo install mdbook

编译HTML

sh build_mdbook_v2.sh
# 英文版生成结果位于 .mdbook-v2/book
# 中文版生成结果位于 .mdbook-v2-zh/book

更多细节请参考 构建指南

贡献指南

我们欢迎任何形式的贡献,详细流程请参阅 贡献指南

提交前请阅读:

社区

微信群二维码
扫码加入微信交流群

引用

如果本书对您的研究或工作有所帮助,请使用以下格式引用:

文本格式:

OpenMLSys Team. 机器学习系统:设计和实现. 2022. https://openmlsys.github.io/

BibTeX:

@book{openmlsys2022,
  title     = {机器学习系统:设计和实现},
  author    = {OpenMLSys Team},
  year      = {2022},
  url       = {https://openmlsys.github.io/},
  note      = {开源教材,\url{https://github.com/openmlsys/openmlsys-zh}}
}

许可证

本项目采用 知识共享 署名-非商业性使用-相同方式共享 4.0 国际许可协议 授权。

About

《Machine Learning Systems: Design and Implementation》 (V2 is launching soon)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors