大语言模型:原理,应用与优化

￥71.20

运费：	¥ 5.00-20.00
库存：	5 件

立即购买

支付：: 微信支付银行卡支付宝

商品详情

（1）作者背景资深：4位作者都是博士，现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。

（2）作者经验丰富：4位作者在大厂工作多年，在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。

（3）工程化视角：本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用，展示了这一系统性工程的复杂性与实现路径。

（4）从入门到进阶：从大模型的原理和基础构件入手，到大模型的分布式训练和各场景应用，再到大模型的优化，零基础入门，成为大模型高手。

（5）从当下到前沿：既详细讲解了当下主流的大模型技术和实操方法，又梳理和盘点了大模型前沿技术理论和实战应用。

这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手，详细梳理了大模型技术的发展脉络，深入探讨了大模型预训练与对齐的方法；然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理，展示了这一系统性工程的复杂性与实现路径。

除了基座模型的训练方案，本书还涵盖了大模型在各领域的落地应用方法，包括低参数量微调、知识融合、工具使用和自主智能体等，展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外，书中进一步介绍了大模型优化的高级话题和前沿技术，如模型小型化、推理能力和多模态大模型等。最后，本书讨论了大模型的局限性与安全性问题，展望了未来的发展方向，为读者提供了全面的理解与前瞻性的视角。

无论是人工智能领域的研究员、工程师，还是对前沿技术充满好奇的读者，本书都将是您了解和掌握大模型技术的必备指南。

苏之阳，博士，毕业于香港科技大学，现任小冰公司研发总监，专注于自然语言处理产品的研发工作。他主导了小冰框架、小冰智能评论和XEva等项目的架构设计和开发，特别是在大语言模型的研发与应用方面具有丰富的经验。他曾任微软公司资深研发工程师，并在国际学术会议和期刊上发表多篇高水平学术论文。他的研究兴趣涵盖自然语言处理、深度学习以及云计算等领域。

王锦鹏，博士，致力于自然语言处理和推荐系统的研发，拥有在微软亚洲研究院等科技公司担任关键技术岗位的经验，参与了Office文档预训练、推荐大模型等多个重要项目的研发和优化工作。在国际会议和学术期刊上发表了逾30篇高质量论文，并在ACL、EMNLP、AAAI等顶级会议中担任审稿人。

姜迪，博士，拥有十余年工业界研发和管理经验，在雅虎、百度等知名互联网企业工作期间，为企业的多个关键业务研发了核心解决方案。在自然语言处理和数据挖掘领域的会议和期刊上发表了数十篇论文并出版了多部学术专著，获得了多个最佳论文奖和CCF奖项，还在IJCAI、WWW、AAAI、CIKM、COLING等多个会议担任委员会成员。

宋元峰，博士，曾就职于百度、腾讯等互联网公司，在人工智能产品开发领域拥有丰富的经验，研究涉及自然语言处理、数据挖掘与可视化等方向，并在KDD、ICDM等国际学术会议和期刊上发表多篇论文。

CONTENTS目　　录前言第1章　语言模型简介 11.1　传统语言模型 21.1.1　n_gram语言模型 21.1.2　神经网络语言模型 51.1.3　传统语言模型的应用 71.2　大语言模型 81.2.1　大模型的发展历程 91.2.2　训练大模型的挑战 111.2.3　大模型的应用 121.3　大模型实例 141.3.1　基座模型实例 151.3.2　对齐模型实例 161.4　小结 18第2章　大模型网络结构 192.1　Seq2Seq结构 192.2　注意力机制 212.3　Transformer架构 222.3.1　Transformer模型结构 232.3.2　编码器单元 242.3.3　解码器单元 262.3.4　位置编码 272.4　词元化 292.4.1　BPE 302.4.2　字节级BPE 322.4.3　WordPiece 322.4.4　Unigram语言模型 332.4.5　SentencePiece 342.5　解码策略 342.5.1　贪心搜索 352.5.2　集束搜索 352.5.3　Top_k采样 362.5.4　核采样 382.5.5　温度采样 392.6　小结 41第3章　大模型学习范式的演进 433.1　预训练与微调的原理和典型模型 443.1.1　预训练与微调 443.1.2　三个典型模型 463.2　多任务学习的原理和典型模型 513.2.1　多任务学习 523.2.2　两个典型模型 533.3　大规模模型的能力 553.3.1　少样本学习 553.3.2　提示学习 573.3.3　上下文学习 593.4　小结 61第4章　大模型对齐训练 634.1　对齐 634.1.1　对齐的定义 634.1.2　对齐的衡量指标 654.2　基于人类反馈的强化学习 674.2.1　监督微调的原理 684.2.2　训练奖励模型的原理 714.2.3　强化学习的原理 734.3　基于AI反馈的强化学习 774.4　直接偏好优化 794.5　超级对齐 804.6　小结 80第5章　大模型评测与数据集 835.1　大模型评测方法 835.1.1　人工评测 845.1.2　自动评测 855.2　大模型评测指标 865.2.1　准确率、精确率、召回率与F1分数 865.2.2　困惑度 885.2.3　BLEU与ROUGE 905.2.4　pass@k 925.3　大模型能力评测基准 925.3.1　MMLU 935.3.2　GSM8K 945.3.3　C_Eval 955.3.4　HumanEval 975.4　数据集及预处理方法 985.4.1　预训练数据集 985.4.2　指令微调数据集 1025.4.3　人工反馈数据集 1055.4.4　数据预处理方法 1065.5　小结 107第6章　分布式训练与内存优化 1096.1　大模型扩展法则 1106.2　分布式训练策略 1126.2.1　数据并行 1136.2.2　张量并行 1136.2.3　流水线并行 1146.2.4　混合并行 1166.3　大模型训练中的不稳定现象 1166.4　分布式训练集群架构 1176.4.1　中心化架构：参数服务器 1186.4.2　去中心化架构：集合通信 1196.5　内存优化策略 1276.5.1　混合精度训练 1276.5.2　梯度检查点 1316.5.3　梯度累积 1326.5.4　FlashAttention 1346.6　分布式训练框架 1356.7　小结 137第7章　大模型的垂直场景适配方案 1397.1　从零开始训练新模型 1407.2　全量参数微调 1407.3　低参数量微调 1427.3.1　适配器方法 1427.3.2　提示词微调 1447.3.3　前缀微调 1467.3.4　LoRA 1477.4　超低参数量微调的探索 1497.5　小结 150第8章　知识融合与工具使用 1518.1　知识融合 1528.1.1　检索增强生成 1528.1.2　解码器融合 1548.1.3　提示融合 1568.2　工具使用 1578.2.1　WebGPT 1578.2.2　LaMDA 1628.2.3　Toolformer 1648.3　自主智能体 1708.3.1　自主智能体的组件 1728.3.2　自主智能体的工作流程 1738.4　小结 174第9章　大模型的进阶优化 1759.1　模型小型化 1759.1.1　模型量化 1769.1.2　知识蒸馏 1799.1.3　参数剪枝 1829.2　推理能力及其延伸 1849.2.1　思维链 1859.2.2　零样本思维链 1889.2.3　最少到最多提示 1909.2.4　ReAct：推理能力行动能力 1919.3　代码生成 1939.3.1　Codex 1949.3.2　代码生成的要素 1979.4　多模态大模型 1989.4.1　BEiT_3 1999.4.2　CLIP 2029.4.3　Flamingo 2049.4.4　MiniGPT_4 2079.5　高质量数据的作用与构建 2089.5.1　LIMA 2099.5.2　教科书级数据 2129.6　模型能力;涌现的原因 2169.7　小结 220

第10 章　大模型的局限性与未来发展方向221

10.1　大模型的局限性222

10.1.1　事实性错误222

10.1.2　理解和推理缺陷223

10.1.3　知识更新问题224

10.1.4　安全性问题224

10.1.5　计算资源限制225

10.2　大模型的未来发展方向226

10.2.1　更强的记忆：从通用到个性化226

10.2.2　装上;手脚：赋予模型使用工具的能力228

10.2.3　多模态交互：穿越文本的边界229

10.3　小结230

参考文献231

【前言】

PREFACE前　　言为何写作本书自人类在20世纪40年代发明第一台计算机以来，计算机科学一直在高速发展。在过去的几十年里，计算机的计算速度和存储容量都大幅提高，促进了人工智能（Artificial Intelligence，AI）技术的发展和应用。随着深度学习技术的蓬勃发展，自然语言处理迅速崛起为人工智能领域的核心研究方向。在这个过程中，大语言模型（Large Language Model，LLM，本书简称为;大模型）应运而生，成为自然语言处理领域近年来的一个重要成果。2022年11月30日，OpenAI推出新一代大模型ChatGPT，它表现出了令人惊艳的对话效果，回复有条理、有逻辑且多轮对话效果出色，引起了人们的广泛关注。ChatGPT的出圈引发了许多人对它和大模型工作原理的好奇。有人误以为ChatGPT的工作方式类似于搜索引擎，背后有一个存储海量文本的;数据库，ChatGPT通过在库中检索相关内容与用户进行交互。事实上并非如此，ChatGPT更像是一个读过海量书籍的智者，在读懂了所有内容之后，再将这些内容按照人们期望的方式进行回复。鉴于大家认识上的误区，为了帮助大家深入了解ChatGPT是什么，它是如何工作的，又将如何改变我们的生活，笔者萌生了写作本书的想法。本书主要内容本书共10章，从逻辑上分为四部分：第一部分（第1～4章）由语言模型的基本概念入手，介绍了大模型的基础构件、技术发展的脉络及范式，以及模型对齐的方法。ChatGPT是一个大模型，而大模型首先是一个语言模型，语言模型是一种基于机器学习技术的自然语言处理模型，它可以学习语言的概率分布，从而实现对语言的理解和生成。大模型是一种新的技术范式，相较于传统语言模型，它不仅 ;大，而且可以理解人类的意图，并完成相应的指令与任务，也就是所谓的;对齐与;指令跟随。经过精心的训练，大模型甚至可以完成推理、规划和具有创造性的复杂任务。第二部分（第5章和第6章）详细介绍了大模型的评测与分布式训练的基本原理。大模型的训练离不开算法、数据和算力的支撑，是一项需要大量投入的系统性工程。首先，研究者需要设计精巧的算法使得模型可以有效处理海量的数据，从而解决语言的复杂性和上下文相关性等挑战。其次，数据也是训练大模型的关键因素，这意味着我们需要收集、清洗和标注大规模语料库，以获得足够的高质量训练数据。最后，随着数据和模型规模的扩大，训练模型所需要的算力和硬件资源也随之不断增加。得益于分布式训练和并行计算优化，大模型的训练变得可行。第三部分（第7～9章）着重介绍了大模型在垂直场景的应用、知识融合与工具使用的方法及大模型优化的高级话题。大模型具有广泛的应用前景，相较于传统语言模型，大模型的适用场景更多，性能也更出色。它既可以作为客服助手，扮演各种角色与用户进行交互并完成任务，又可以用于人工智能生成，协助用户撰写文章或报告，还可以用于翻译任务，理解源语言的内容并生成目标语言翻译结果。此外，它还可以作为生产力工具编写代码，大幅提升程序员的编码效率。随着大模型技术的发展，这些应用的上限也在不断取得突破，同时有更多创新型应用不断涌现。第四部分（第10章）展望了大模型未来的发展方向和挑战。尽管大模型在众多领域展现出卓越的性能，但也存在一些局限性。例如，大模型在生成输出时常常会编造一些事实，即使这类错误属于罕见情况，也对回答的可信度和可靠性造成了严重影响。此外，安全性问题也备受关注。若大模型被不当使用，可能成为虚假新闻或钓鱼邮件的源头，甚至成为不法分子进行违法犯罪活动的;帮凶。全书力求系统和完备，在使各章内容逐步递进的同时，也兼顾了各章内容的独立性。读者可根据需求按章顺序学习或选择特定内容深入研究。希望本书能够帮助读者深入了解大模型相关知识，同时能够促进大模型技术的发展和应用。本书读者对象计算机科学、人工智能、自然语言处理等领域的专业人士和学者。对大模型感兴趣的普通读者。资源和勘误限于作者水平，书中难免存在疏漏或不足之处，欢迎读者批评指正。读者可通过电子邮件llmbookfeedback@gmail.com联系我们，期待收到读者的宝贵意见和建议。苏之阳2024年5月