商品详情
定价:99.8
ISBN:9787115665584
作者:未来智能实验室 代晶
版次:1
出版时间:2025-03
内容提要:
DeepSeek 是一种基于 Transformer 架构的生成式 AI(Artificial Intelligence)大模型,融合了MoE 架构、混合精度训练、分布式优化等先进技术,具备强大的文本生成、多模态处理和任务定制化能力。本书系统性地介绍了开源大模型 DeepSeek-V3 的核心技术及其在实际开发中的深度应用。
全书分三部分共12章,涵盖理论解析、技术实现和应用实践。*部分从理论入手,详细解析了Transformer 与注意力机制、DeepSeek-V3 的核心架构与训练技术等内容,并探讨了 Scaling Laws 及其在模型优化中的应用。*部分聚焦于大模型初步体验、开放平台与API 开发、对话生成与代码补全的实现,以及函数回调与缓存优化(Visual Studio Code),帮助读者快速掌握关键技术的基础理论和落地实践。第三部分则通过实际案例剖析DeepSeek在Chat类客户端、智能 AI 助理、VS Code编程插件等多领域中的实用集成开发,展示了开源大模型技术在工业与商业场景中的*应用。
本书通过深度讲解与实用案例相结合的方式,帮助读者理解 DeepSeek 大模型从原理到开发的完整流程,学习新技术的实现方法与优化策略,*提升在大模型领域的理论素养与开发能力。本书适合生成式 AI 技术研究者、软件开发工程师、数据科学家,以及希望快速掌握大模型技术并将其应用于实际场景的 AI 技术爱好者和高校师生阅读。
作者简介:
未来智能实验室(Future Intelligence Lab)由多名国内*高校的博士、硕士组成,专注于大模型的研发与创新,聚焦自然语言处理、深度学习、计算机视觉和多模态学习等领域。团队致力于推动AI技术的突破,并为企业和*提供*的技术支持,助力复杂AI项目的*开发与应用。团队成员拥有丰富的实践经验,曾参与国内知名企业的大模型设计与落地项目,涉及对话系统、智能推荐、生成式AI等多个领域。团队通过技术研发与方案优化,促进大模型在工业界的落地,并加速智能化应用的普及与行业创新。
代晶,毕业于清华大学,研究领域为数据挖掘、自然语言处理等。曾在IBM、VMware等知名企业担任技术工程师十余年,拥有扎实的技术功底与广泛的行业经验。近年来,她专注于大模型训练、自然语言处理、模型优化等前沿技术,具备敏锐的行业洞察力,热衷于分享行业新动态,向大众提供更有价值的知识分享,帮助更多的人快速掌握AI领域的前沿知识。
目录:
目录
*部分生成式AI的基础与技术架构
第1章 Transformer与注意力机制的核心原理
1.1 Transformer 的基本结构
1.1.1 Encoder-Decoder 架构
1.1.2 Self-Attention 与 Multi-Head 机制
1.1.3 残差连接与 Layer Normalization
1.2 注意力机制的核心原理
1.2.1 点积注意力与加性注意力的对比
1.2.2 Softmax 归一化原理
1.2.3 注意力矩阵的稀疏性与加速优化
1.3 Transformer 的扩展与优化
1.3.1 动态注意力的实现
1.3.2 Long-Range Attention 与 Sparse Attention
1.3.3 多样化位置编码
1.4 上下文窗口
1.4.1 上下文窗口扩展
1.4.2 内存与计算复杂度的平衡
1.4.3 DeepSeek-V3 在上下文窗口方面的优化
1.5 训练成本与计算效率的平衡
1.5.1 参数量与计算需求的增长趋势
1.5.2 GPU 计算架构在 Transformer 中的应用
1.5.3 DeepSeek-V3 如何降低训练成本
1.6 本章小结
第2章 DeepSeek-V3 核心架构及其训练技术详解
2.1 MoE 架构及其核心概念
2.1.1 Mixture of Experts(MoE)简介
2.1.2 Sigmoid 路由的工作机制
2.1.3 基于 MoE 的 DeepSeek-V3 架构设计
2.2 FP8 混合精度训练的优势
2.2.1 混合精度计算的基本原理
2.2.2 FP8 在大模型训练中的应用
2.2.3 基于 FP8 的 DeepSeek-V3 性能提升策略
2.3 dualpipe 算法与通信优化
2.3.1 Dualpipe 双管道处理算法
2.3.2 All-to-All 跨节点通信机制
2.3.3 Infiniband 与 NVLink 的带宽优化
2.4 大模型的分布式训练
2.4.1 数据并行与模型并行的权衡
2.4.2 DeepSeek-V3 的分布式训练架构
2.4.3 动态学习率调度器的设计与优化
2.4.4 无辅助损失的负载均衡策略
2.4.5 多令牌预测训练目标
2.5 缓存机制与 Token
2.5.1 缓存命中与未命中的基本概念
2.5.2 Token 的定义与编码过程
2.5.3 DeepSeek-V3 的*缓存机制
2.6 DeepSeek 系列模型
2.6.1 DeepSeek LLM
2.6.2 DeepSeek Coder
2.6.3 DeepSeek Math
2.6.4 DeepSeek VL
2.6.5 DeepSeek V2
2.6.6 DeepSeek Coder V2
2.6.7 DeepSeek-V3
2.7 本章小结
第3章基于 DeepSeek-V3 大模型的开发导论
3.1 大模型应用场景
3.1.1 文本生成与摘要
3.1.2 问答系统与对话生成
3.1.3 多语言编程与代码生成
3.2 DeepSeek-V3 的优势与应用方向
3.2.1 在不同领域的实际表现
3.2.2 多语言编程能力(基于Aider 测评案例)
3.2.3 代码与数学任务的应用探索
3.3 Scaling Laws 研究与实践
3.3.1 模型规模与性能的关系
3.3.2 小模型上的 Scaling Laws 实验结果
3.4 模型部署与集成
3.4.1 API 调用与实时生成
3.4.2 本地化部署
3.4.3 性能优化策略
3.5 开发中的常见问题与解决方案
3.5.1 输入设计与生成控制
3.5.2 模型偏差与稳健性问题
3.5.3 关于 DeepSeek-V3 特定问题的应对技巧
3.6 本章小结
*部分生成式 AI 的专业应用与 Prompt 设计
第4章 DeepSeek-V3 大模型初体验
4.1 对话与语义理解能力
4.1.1 单轮对话与多轮对话
4.1.2 上下文交互
4.2 数学推理能力
4.2.1 常规数学题目评估
4.2.2 复杂难题理解与推理
4.3 辅助编程能力
4.3.1 辅助算法开发
4.3.2 软件开发
4.4 本章小结
第5章 DeepSeek 开放平台与 API 开发详解
5.1 DeepSeek 开放平台简介
5.1.1 平台核心模块与服务概述
5.1.2 开放生态中的关键角色与协作
5.2 DeepSeek API 的基础操作与 API 接口详解
5.2.1 API 调用的认证机制与请求结构
5.2.2 常用接口的功能解析与示例
5.3 API 性能优化与*策略
5.3.1
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...