好玩的数学科普书店店铺主页二维码
好玩的数学科普书店 微信认证
传播数学,普及大众
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习

109.80
运费: ¥ 0.00-20.00
库存: 1100 件
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品图0
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品图1
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品图2
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品图3
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品图4
图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品缩略图0 图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品缩略图1 图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品缩略图2 图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品缩略图3 图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习 商品缩略图4

商品详情

书名:图解大模型:生成式AI原理与实战(全彩)  
定价:159.8  
ISBN:9787115670830  
作者:[沙特] 杰伊·阿拉马尔(Jay Alammar) [荷] 马尔滕·格鲁滕多斯特(Maarten Grootendorst)  
版次:第1版  
出版时间:2025-05  

内容提要:  
本书全程图解式讲解,通过大量全彩插图拆解概念,让读者真正告别学习大模型的枯燥和复杂。 全书分为三部分,依次介绍语言模型的原理、应用及优化。*部分 理解语言模型(第1~3章),解析语言模型的核心概念,包括词元、嵌入向量及Transformer架构,帮助读者建立基础认知。*部分 使用预训练语言模型(第4~9章),介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成及多模态扩展,提升模型的应用能力。第三部分 训练和微调语言模型(第10~12章),探讨大模型的训练与微调方法,包括嵌入模型的构建、分类任务的优化及生成式模型的微调,以适应特定需求。 本书适合对大模型感兴趣的*、研究人员和行业从业者。读者无须深度学习基础,只要会用Python,*可以通过本书深入理解大模型的原理并上手大模型应用开发。书中示例还可以一键在线运行,让学习过程更轻松。  



作者简介:  
Jay Alammar Cohere总监兼工程研究员,知名大模型技术博客Language Models & Co作者,DeepLearning.AI和Udacity热门机器学习和自然语言处理课程作者。 Jay的图解系列文章“The Illustrated Transformer”“The Illustrated DeepSeek-R1”全网疯传,累积了几百万专业读者。 Maarten Grootendorst IKNL(荷兰综合癌症中心)*临床数据科学家,知名大模型技术博客博主,BERTopic等开源大模型软件包作者(下载量*百万),DeepLearning.AI和Udacity热门机器学习和自然语言处理课程作者。 译者李博杰 智能体初创公司PINE AI联合*、*科学家。曾任华为计算机网络与协议实验室副**,入选华为*批“天才少年”项目。2019年获中国科学技术大学(USTC)与微软亚洲研究院(MSRA)联合培养博士学位,曾获ACM中国*博士学位论文奖和微软学者奖学金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等*会议上发表多篇论文。  

目录:  
对本书的赞誉 xi  
对本书中文版的赞誉 xiii  
译者序 xv  
中文版序 xxi  
前言 xxiii  
第 一部分 理解语言模型  
第 1章 大语言模型简介 3  
1.1 什么是语言人工智能 4  
1.2 语言人工智能的近期发展史 4  
1.2.1 将语言表示为词袋模型 5  
1.2.2 用稠密向量嵌入获得更好的表示 7  
1.2.3 嵌入的类型 9  
1.2.4 使用注意力机制编解码上下文 10  
1.2.5 “Attention Is All You Need” 13  
1.2.6 表示模型:仅编码器模型 16  
1.2.7 生成模型:仅解码器模型 18  
1.2.8 生成式AI元年 20  
1.3 “LLM”定义的演变 22  
1.4 LLM的训练范式 22  
1.5 LLM的应用 23  
1.6 开发和使用负责任的LLM 24  
1.7 有限的资源*够了 25  
1.8 与LLM交互 25  
1.8.1 专有模型 26  
1.8.2 开源模型 26  
1.8.3 开源框架 27  
1.9 生成你的第 一段文本 28  
1.10 小结 30  
第 2章 词元和嵌入 31  
2.1 LLM的分词 32  
2.1.1 分词器如何处理语言模型的输入 32  
2.1.2 下载和运行LLM 33  
2.1.3 分词器如何分解文本 36  
2.1.4 词级、子词级、字符级与字节级分词 37  
2.1.5 比较训练好的LLM分词器 39  
2.1.6 分词器属性 47  
2.2 词元嵌入 48  
2.2.1 语言模型为其分词器的词表保存嵌入 49  
2.2.2 使用语言模型创建与上下文相关的词嵌入 49  
2.3 文本嵌入(用于句子和整篇文档) 52  
2.4 LLM之外的词嵌入 53  
2.4.1 使用预训练词嵌入 53  
2.4.2 word2vec算法与对比训练 54  
2.5 推荐系统中的嵌入 57  
2.5.1 基于嵌入的歌曲推荐 57  
2.5.2 训练歌曲嵌入模型 58  
2.6 小结 60  
第3章 LLM的内部机制 61  
3.1 Transformer模型概述 62  
3.1.1 已训练Transformer LLM的输入和输出 62  
3.1.2 前向传播的组成 64  
3.1.3 从概率分布中选择单个词元(采样/解码) 66  
3.1.4 并行词元处理和上下文长度 68  
3.1.5 通过缓存键 值加速生成过程 70  
3.1.6 Transformer块的内部结构 71  
3.2 Transformer架构的*改进 79  
3.2.1 更*的注意力机制 79  
3.2.2 Transformer块 83  
3.2.3 位置嵌入:RoPE 85  
3.2.4 其他架构实验和改进 87  
3.3 小结 87  
*部分 使用预训练语言模型  
第4章 文本分类 91  
4.1 电影评论的情感分析 92  
4.2 使用表示模型进行文本分类 93  
4.3 模型选择 94  
4.4 使用特定任务模型 96  
4.5 利用嵌入向量的分类任务 99  
4.5.1 监督分类 99  
4.5.2 没有标注数据怎么办 102  
4.6 使用生成模型进行文本分类 105  
4.6.1 使用T5 106  
4.6.2 使用ChatGPT进行分类 110  
4.7 小结 113  
第5章 文本聚类和主题建模 114  
5.1 ArXiv文章:计算与语言 115  
5.2 文本聚类的通用流程 116  
5.2.1 嵌入文档 116  
5.2.2 嵌入向量降维 117  
5.2.3 对降维后的嵌入向量进行聚类 119  
5.2.4 检查生成的簇 120  
5.3 从文本聚类到主题建模 122  
5.3.1 BERTopic:一个模块化主题建模框架 124  
5.3.2 添加特殊的“乐高积木块” 131  
5.3.3 文本生成的“乐高积木块” 135  
5.4 小结 138  
第6章 提示工程 140  
6.1 使用文本生成模型 140  
6.1.1 选择文本生成模型 140  
6.1.2 加载文本生成模型 141  
6.1.3 控制模型输出 143  
6.2 提示工程简介 145  
6.2.1 提示词的基本要素 145  
6.2.2 基于指令的提示词 147  
6.3 *提示工程 149  
6.3.1 提示词的潜在复杂性 149  
6.3.2 上下文学习:提供示例 152  
6.3.3 链式提示:分解问题 153  
6.4 使用生成模型进行推理 155  
6.4.1 思维链:先思考再回答 156  
6.4.2 自洽性:采样输出 159  
6.4.3 思维树:探索中间步骤 160  
6.5 输出验证 161  
6.5.1 提供示例 162  
6.5.2 语法:约束采样 164  
6.6 小结 167  
第7章 *文本生成技术与工具 168  
7.1 模型输入/输出:基于LangChain加载量化模型 169  
7.2 链:扩展LLM的能力 171  
7.2.1 链式架构的关键节点:提示词模板 172  
7.2.2 多提示词链式架构 174  
7.3 记忆:构建LLM的对话回溯能力 177  
7.3.1 对话缓冲区 178  
7.3.2 窗口式对话缓冲区 180  
7.3.3 对话摘要 181  
7.4 智能体:构建LLM系统 185  
7.4.1 智能体的核心机制:递进式推理 186  
7.4.2 LangChain中的ReAct实现 187  
7.5 小结 190  
第8章 语义搜索与RAG 191  
8.1 语义搜索与RAG技术全景 191  
8.2 语言模型驱动的语义搜索实践 193  
8.2.1 稠密检索 193  
8.2.2 重排序 204  
8.2.3 检索评估指标体系 207  
8.3 RAG 211  
8.3.1 从搜索到RAG 212  
8.3.2 示例:使用LLM API进行基于知识的生成 213  
8.3.3 示例:使用本地模型的RAG 213  
8.3.4 *RAG技术 215  
8.3.5 RAG效果评估 217  
8.4 小结 218  
第9章 多模态LLM 219  
9.1 视觉Transformer 220  
9.2 多模态嵌入模型 222  
9.2.1 CLIP:构建跨模态桥梁 224  
9.2.2 CLIP的跨模态嵌入生成机制 224  
9.2.3 OpenCLIP 226  
9.3 让文本生成模型具备多模态能力 231  
9.3.1 BLIP-2:跨越模态鸿沟 231  
9.3.2 多模态输入预处理 235  
9.3.3 用例1:图像描述 237  
9.3.4 用例2:基于聊天的多模态提示词 240  
9.4 小结 242  
第三部分 训练和微调语言模型  
第 10章 构建文本嵌入模型 247  
10.1 嵌入模型 247  
10.2 什么是对比学习 249  
10.3 SBERT 251  
10.4 构建嵌入模型 253  
10.4.1 生成对比样本 253  
10.4.2 训练模型 254  
10.4.3 深入评估 257  
10.4.4 损失函数 258  
10.5 微调嵌入模型 265  
10.5.1 监督学习 265  
10.5.2 增强型SBERT 267  
10.6 无监督学习 271  
10.6.1 TSDAE 272  
10.6.2 使用TSDAE进行领域适配 275  
10.7 小结 276  
第 11章 为分类任务微调表示模型 277  
11.1 监督分类 277  
11.1.1 微调预训练的BERT模型 279  
11.1.2 冻结层 281  
11.2 少样本分类 286  
11.2.1 SetFit:少样本场景下的*微调方案 286  
11.2.2 少样本分类的微调 290  
11.3 基于掩码语言建模的继续预训练 292  
11.4 命名实体识别 297  
11.4.1 数据准备 298  
11.4.2 命名实体识别的微调 303  
11.5 小结 305  
第 12章 微调生成模型 306  
12.1 LLM训练三步走:预训练、监督微调和偏好调优 306  
12.2 监督微调 308  
12.2.1 全量微调 308  
12.2.2 参数*微调 309  
12.3 使用QLoRA进行指令微调 317  
12.3.1 模板化指令数据 317  
12.3.2 模型量化 318  
12.3.3 LoRA配置 319  
12.3.4 训练配置 320  
12.3.5 训练 321  
12.3.6 合并权重 322  
12.4 评估生成模型 322  
12.4.1 词级指标 323  
12.4.2 基准测试 323  
12.4.3 排行榜 324  
12.4.4 自动评估 325  
12.4.5 人工评估 325  
12.5 偏好调优、对齐 326  
12.6 使用奖励模型实现偏好评估自动化 327  
12.6.1 奖励模型的输入和输出 328  
12.6.2 训练奖励模型 329  
12.6.3 训练无奖励模型 332  
12.7 使用DPO进行偏好调优 333  
12.7.1 对齐数据的模板化 333  
12.7.2 模型量化 334  
12.7.3 训练配置 335  
12.7.4 训练 336  
12.8 小结 337  
附录 图解DeepSeek-R1 338  
后记 349  

好玩的数学科普书店店铺主页二维码
好玩的数学科普书店 微信公众号认证
传播数学,普及大众
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

图解大模型 生成式AI原理与实战 大语言模型大模型应用开发Transformer DeepSeek模型原理开发深度学习

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:mathfun
好玩的数学官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏