商品详情
在深度学习时代,图学习技术得到了快速发展。其中,图神经网络通过将图结构信息融合到深度神经网络模型中,在多个领域取得了显著优于传统机器学习和数据挖掘方法的预测分析结果,从而被广泛关注。著名的图神经网络模型包括 GCN、GraphSAGE、GAT、GIN 等。随着移动技术、物联网、社交媒体等信息技术的高速发展,人们拥有的图数据规模快速增长,为了推进图神经网络在实际生产环境中的应用落地,关于图神经网络的研究从;大炼模型逐渐转变为;炼大模型,人们急需突破大规模图神经网络高效训练技术,构建基于大规模图数据的大模型。分布式计算是一种有效的大规模图神经网络训练方案,因为它能够提供丰富的计算资源。然而,图数据内部的结构依赖性增加了实现高效分布式图神经网络训练的难度;训练过程遭遇的大量通信和工作负载失衡使得训练效率难以提升。分布式图神经网络训练主要面临三个挑战大量的数据通信、模型准确性与训练效率的平衡、工作负载的失衡。针对上述挑战,学术界和工业界围绕大规模分布式图神经网络的模型优化、编程框架、并行训练算法等多个方面提出了一系列技术方案并研发了相应的系统。目前市场上系统性介绍分布式图神经网络学习的基础知识、分布式并行训练的核心技术以及训练系统等内容的相关书籍少之又少。本书旨在为图神经网络、大规模机器学习等领域的科研人员和从业者,以及相关专业高年级本科生和研究生,提供一些相关理论、方法和技术的支撑以及分布式并行图神经网络训练的前沿视野,例如,面向图神经网络的数据划分、面向图神经网络的数据缓存、推拉混合的图神经网络并行分布式训练、基于历史信息通信优化的图神经网络并行分布式训练以及分布式图神经网络训练实践经验等。通过阅读本书,读者能够熟悉并掌握大规模图神经网络及其分布式优化技术,为日后深入研究奠定基础。本书共 9 章。第 1 章介绍图神经网络的背景、发展历史和现状,并探索大规模图神经网络的缘由;第 2 章介绍图神经网络模型的基础知识及其应用;第 3 章介绍分布式并行机器学习的流程、训练模式、训练架构、物理架构等基础知识;第 4 章从整体上介绍分布式并行图神经网络训练的流程和方法;第 5 章和第 6 章分别介绍大规模图神经网络的小批次分布式并行训练和全图分布式并行训练方法及其优化技术;第 7 章介绍经典的大规模图神经网络系统;第 8 章介绍大规模图神经网络编程实践案例;第 9 章探讨大规模图神经网络技术的未来发展方向。全书由北京邮电大学的邵蓥侠教授和北京大学的崔斌教授合著。李鸿政、顾希之、林振宇、杜鑫、王佳禾协助撰写和修改了部分内容,其中林振宇参与了第 2 章的撰写,杜鑫参与了第 3 章和第 4 章的撰写,李鸿政参与了第 5 章和第 6 章的撰写,顾希之参与了第 7 章的撰写,王佳禾参与了第 8 章的撰写。
邵蓥侠北京邮电大学2024 年 12 月
本书入选;十四五国家重点出版物出版规划项目,2025国家出版基金项目。
本书系统介绍并行与分布式图神经网络的核心技术和实践方法,内容全面、结构清晰,既涵盖理论基础,又包含系统实现与编程案例,具有很高学术价值和工程指导意义。全书共 9 章。第 1 章介绍图神经网络的背景、发展历史和现状,并探索大规模图神经网络的缘由;第 2 章介绍图神经网络模型的基础知识及其应用;第 3 章介绍分布式并行机器学习的流程、训练模式、训练架构、物理架构等基础知识;第 4 章从整体上介绍分布式并行图神经网络训练的流程和方法;第 5 章和第 6 章分别介绍大规模图神经网络的小批次分布式并行训练和全图分布式并行训练方法及其优化技术;第 7 章介绍经典的大规模图神经网络系统;第 8 章介绍大规模图神经网络编程实践案例;第 9 章探讨大规模图神经网络技术的未来发展方向。
邵蓥侠,北京邮电大学计算机学院教授,国家高层次青年人才,博士生导师。研究方向为图数据管理、大规模图计算、AI4Sys等。主持3项国家自然科学基金项目、1项科技创新2030;新一代人工智能重大项目子课题以及多项CCF/CAAI产学研合作基金。在数据库和人工智能领域的著名会议和期刊已发表高质量学术论文70余篇,其中第一作者/通讯作者发表CCF_A类期刊和会议论文20余篇,出版英文学术专著1部;入选北京市科技新星,获北京市高等教育教学成果奖二等奖、ACM SIGMOD中国新星奖、数据库领域顶级国际会议VLDB 2022最佳常规研究论文奖、数据库领域重要国际会议DASFAA 2020最佳学生论文奖等。指导学生获全国大学生计算机系统能力大赛_(首届)数据库管理系统设计赛一等奖、第四届实时计算Flink挑战赛亚军;长期担任多个重要国际会议的程序委员和著名国际期刊的审稿人。
前言
第 1 章 引言 11.1 图神经网络 21.1.1 什么是图神经网络 21.1.2 图神经网络的发展历史 41.1.3 图神经网络的现状 61.2 大规模图神经网络 71.2.1 大规模图神经网络的缘由 81.2.2 大规模图神经网络与分布式训练 91.2.3 分布式图神经网络的困难与挑战 101.3 本书组织 11参考文献 12
第 2 章 图神经网络模型 162.1 图的表示 162.2 图神经网络的表示 172.3 典型的图神经网络模型 182.3.1 门控图序列神经网络 192.3.2 图卷积神经网络 202.3.3 图注意力网络 232.3.4 生成式图神经网络模型 252.4 图神经网络的应用 282.4.1 社交网络 292.4.2 生物与医疗 292.4.3 金融与风控 302.4.4 物理领域 312.4.5 交通领域 312.4.6 推荐系统 322.5 小结 32参考文献 32
第 3 章 分布式并行机器学习 373.1 机器学习的基础知识 383.1.1 基本概念 383.1.2 模型训练 383.1.3 反向传播算法 423.1.4 梯度下降算法 453.2 分布式并行机器学习的流程 473.3 分布式并行机器学习的训练模式 483.3.1 数据并行 493.3.2 模型并行 503.3.3 流水并行 513.3.4 张量并行 533.3.5 混合专家并行 583.3.6 完全分片的数据并行 603.4 分布式并行机器学习的训练架构 623.4.1 分布式训练架构 623.4.2 模型更新策略 663.5 分布式并行机器学习的物理架构 683.5.1 单机多卡分布式并行训练环境 683.5.2 多机集群分布式并行训练环境 693.6 小结 70参考文献 71
第 4 章 分布式并行图神经网络训练 754.1 图神经网络训练的基本流程 764.1.1 全图训练 764.1.2 小批次训练 784.2 图神经网络与深度神经网络的比较 814.3 分布式并行图神经网络训练824.3.1 小批次分布式并行图神经网络训练 834.3.2 全图分布式并行图神经网络训练 844.4 小结 85参考文献 85
第 5 章 小批次分布式并行图神经网络训练与优化 875.1 朴素的小批次分布式并行训练 875.1.1 训练流程 875.1.2 问题与不足 885.2 执行引擎优化 905.2.1 小批次间的算子并行训练 905.2.2 推拉混合的并行训练 935.2.3 基于历史嵌入的并行训练 955.2.4 基于计算分解的数据并行训练 995.3 图采样及其优化 1025.3.1 基本的图采样方法 1025.3.2 分布式图采样方法 1035.4 数据缓存优化技术 1065.5 通信机制及优化 1075.5.1 集合通信 1075.5.2 集合通信的死锁问题 1085.5.3 通信链路优化 1095.6 小结 116参考文献 116
第 6 章 全图分布式并行图神经网络训练与优化 1216.1 全图分布式图神经网络训练基本并行方法 1226.1.1 子图并行的全图分布式训练 1226.1.2 算子并行的全图分布式训练 1246.1.3 子图并行与算子并行对比 1296.1.4 全图分布式并行图神经网络训练的效率瓶颈 1296.2 基于同步模型计算的效率优化 1306.2.1 图划分策略 1306.2.2 预聚合执行模式 1356.2.3 高效的同步通信协议 1386.3 基于异步模型计算的通信优化 1406.3.1 异步执行模型 1416.3.2 异步图神经网络训练通信协议 1426.4 小结 144参考文献 145
第 7 章 大规模图神经网络系统 1507.1 图神经网络编程模型 1517.1.1 以张量为中心的编程模型 1517.1.2 以全图为中心的编程模型 1517.1.3 以节点为中心的编程模型 1547.2 图神经网络系统与图计算 1547.3 面向单机多 GPU 的图神经网络系统 1557.4 面向 GPU 集群的图神经网络系统 1577.5 面向 CPU 集群的图神经网络系统 1597.6 面向其他硬件平台的图神经网络系统 1617.7 图神经网络系统的对比与选择 1627.7.1 硬件设备 1627.7.2 模型训练方法 1647.7.3 模型更新策略 1647.8 小结 165参考文献 166
第 8 章 大规模图神经网络编程实践 1708.1 基于 DGL 的训练环境配置 1718.2 单机单卡训练 1728.2.1 基本训练流程 1728.2.2 简单的图神经网络训练案例 1738.2.3 基于小批次的图神经网络训练案例 1778.3 分布式并行训练 1808.3.1 数据集的预处理 1818.3.2 分布式数据通信接口 1838.3.3 单机多 GPU 的训练 1908.3.4 基于集群的训练 2088.4 小结 214参考文献 214
第 9 章 总结与展望 216
参考文献 218
本书从理论到实践层层递进,全面覆盖了从基础模型到分布式系统设计的核心内容。书中不仅总结了现有系统的优缺点,还提供了详细的实践案例,极具可操作性。本书语言严谨、案例典型,既适合作为高等院校相关专业的教材,也可作为工业界研发人员的实战手册,对该领域的技术发展具有重要的推动作用和参考价值。 林学民 欧洲人文和自然科学院外籍院士、IEEE Fellow、上海交通大学讲席教授
本书围绕大规模图神经网络的分布式训练技术展开,深入剖析了数据划分、通信优化、混合并行等关键问题,并提供了丰富的实践案例和系统对比。作者团队在该领域具有深厚的学术积累和丰富的工程经验,书中内容兼具前沿性与实用性。无论是从事图计算与图学习研究的学者,还是致力于落地应用的工程师,都能从中获得深刻启发和技术支撑。强烈推荐作为分布式图神经网络方向的进阶读物和教学参考。 金海 国家杰出青年科学基金获得者、IEEE Fellow、CCF副理事长、华中科技大学教授
图神经网络作为人工智能前沿领域的重要分支,已在多个实际场景中展现出强大潜力。然而,大规模图神经网络的训练仍面临通信、负载与效率等多重挑战。本书系统性地介绍了并行与分布式图神经网络的核心技术和实践方法,内容全面、结构清晰,既涵盖理论基础,又包含系统实现与编程案例,具有很高的学术价值与工程指导意义,特别适合高年级研究生、研究人员及工程师阅读,是该领域不可多得的优秀参考书。 陈文光 国家杰出青年科学基金获得者、蚂蚁技术研究院前院长、清华大学教授
- 新华一城书集 (微信公众号认证)
- 上海新华书店官方微信书店
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...