商品详情
解锁大语言模型和RAG技术的秘密,带读者深入理解文档搜索的应用
深入浅出地介绍了从文档分块到向量检索的全过程
结合实践案例,帮助读者将RAG技术快速应用于实际工作中
本书全面剖析了RAG(检索增强生成)技术,从文档的分块与向量化,到利用深度学习模型进行高效检索,再结合Prompt技术实现精准响应,每一步骤都通过清晰的逻辑与实例展示。书中不仅详细介绍了大语言模型的核心原理,还涵盖了PyTorch编程基础、深度学习理论与NLP技术。配合实际项目,如PDF阅读器的构建、Streamlit与Gradio可视化工具的使用,帮助读者将理论应用于实践,是学习RAG技术与大语言模型应用的指南。
本书详细解析了RAG(Retrieval_Augmented Generation,检索增强生成)技术及其应用,从文档的分块与向量化,到利用深度学习模型进行向量检索,再到结合Prompt技术以实现精准响应,每个知识点都有清晰的逻辑阐述与实践案例;同时,介绍了PyTorch编程基础与深度学习核心概念。此外,本书还涵盖了一系列实用技术,如Web可视化工具Streamlit与Gradio的使用,以及如何利用这些工具快速构建交互式界面,直观展示RAG技术的效果。最后,通过动手实现PDF阅读器的实例,读者能亲自体验从理论到实践的过程,加深对RAG技术的理解与掌握。本书内容通俗易懂,适合对文档搜索和RAG应用感兴趣的读者阅读,也可以作为从事大语言模型相关工作的人员的参考书。
第 1章 RAG概述 0011.1 人工智能和自然语言处理概述 0011.1.1 人工智能的定义和发展历史 0011.1.2 自然语言处理的概念和基本任务 0011.2 自然语言处理在大数据时代的挑战与机遇 0031.2.1 大数据时代对自然语言处理的影响 0031.2.2 大数据时代的自然语言处理技术发展趋势 0041.3 基于RAG的大模型文档搜索概述 0061.3.1 RAG模型的含义和基本原理 0061.3.2 大模型文档搜索在信息检索领域的重要性 0071.4 基于RAG的大模型文档搜索的工作原理 0081.4.1 Retriever模块的工作原理 0081.4.2 Generator模块的工作原理 0091.4.3 Ranker模块的工作原理 0111.5 基于RAG的大模型文档搜索的优势和应用场景 0121.5.1 优势 0121.5.2 应用场景 014第 2章 PyTorch编程基础 0172.1 PyTorch简介 0172.2 PyTorch安装与环境配置 0182.2.1 安装PyTorch 0182.2.2 环境配置 0192.2.3 常见安装问题及解决方法 0192.3 PyTorch张量 0202.3.1 张量的创建 0202.3.2 张量的基本运算 0232.3.3 张量的索引和切片 0262.3.4 张量的形状操作 0292.4 PyTorch自动微分 0322.4.1 梯度计算 0322.4.2 反向传播 0332.4.3 停止梯度传播 0352.5 PyTorch模型构建 0372.5.1 搭建神经网络模型 0372.5.2 模型参数的访问和初始化 0392.6 PyTorch数据加载与预处理 0412.6.1 数据加载 0412.6.2 数据预处理 0432.7 PyTorch模型训练与评估 0452.7.1 模型训练 0452.7.2 模型评估 0492.8 PyTorch模型保存与加载 0532.8.1 模型的保存 0532.8.2 模型的加载 0542.9 小结 056第3章 深度学习基础 0573.1 感知机和多层感知机 0573.1.1 感知机的原理和结构 0573.1.2 多层感知机的结构和前向传播 0583.1.3 多层感知机的训练算法 0593.2 卷积神经网络 0613.2.1 卷积层和池化层 0613.2.2 CNN的典型结构:LeNet、AlexNet、VGG、ResNet 0643.3 循环神经网络 0733.3.1 RNN的结构和原理 0733.3.2 长短期记忆网络 0753.3.3 门控循环单元 0763.4 Transformer模型 0783.4.1 Self_Attention机制 0783.4.2 Transformer架构 0803.4.3 Transformer在机器翻译、语言建模等任务中的应用 0843.5 BERT模型 0843.5.1 BERT的预训练任务和目标 0843.5.2 BERT的结构、原理和应用 0883.6 GPT大模型 0893.6.1 GPT的预训练任务和目标 0893.6.2 GPT的结构、原理和应用 0903.7 深度学习的优化算法 0913.7.1 梯度下降和反向传播 0913.7.2 SGD和Adam 0943.7.3 学习率调整策略 0963.8 深度学习的正则化和防止过拟合方法 0993.8.1 L1和L2正则化 0993.8.2 Dropout和Batch Normalization 101第4章 自然语言处理基础 1034.1 基础知识 1034.1.1 分词算法 1034.1.2 关键词提取 1064.1.3 摘要提取 1104.2 模型如何看懂文字 1134.3 ChatGPT大模型 1174.3.1 GPT模型的发展历程 1184.3.2 ChatGPT模型概述 1194.3.3 ChatGPT模型的原理和发展方向 120第5章 Web可视化 1215.1 Streamlit介绍 1215.1.1 概述 1215.1.2 主要功能 1225.1.3 应用场景 1325.2 Gradio介绍 1455.2.1 概述 1455.2.2 主要功能 1475.2.3 应用场景 153第6章 RAG文档分块和向量化 1646.1 文档分块概述 1646.1.1 文档分块的定义和作用 1646.1.2 常见的文档分块算法 1666.1.3 文档分块在信息检索和自然语言处理中的应用 1686.2 文档分块方法 1716.2.1 基于规则的文档分块方法 1716.2.2 基于机器学习的文档分块方法 1736.2.3 基于深度学习的文档分块方法 1746.3 文档向量化概述 1786.3.1 文档向量化的定义和作用 1786.3.2 文档向量化在自然语言处理中的应用场景 1796.3.3 文档向量化的评估指标 1816.4 基于词袋模型的文档向量化方法 1836.4.1 词频矩阵 1836.4.2 TF_IDF矩阵 1856.4.3 Hot编码 1876.4.4 哈希编码 1886.5 基于词嵌入模型的文档向量化方法 1906.5.1 Word2Vec 1906.5.2 fastText 1916.5.3 Doc2Vec 1936.6 基于预训练模型的文档向量化方法 1956.6.1 BERT文档向量化 1956.6.2 GPT文档向量化 197第7章 RAG向量检索技术 1997.1 向量检索技术的定义和应用场景 1997.1.1 向量检索技术的定义 1997.1.2 向量检索技术的应用场景 2007.2 向量间距离的计算 2047.2.1 内积距离 2047.2.2 欧式距离 2067.2.3 汉明距离 2077.2.4 杰卡德距离 2087.3 基于树的方法 2107.3.1 KNN算法 2107.3.2 KD_树 2117.3.3 Annoy 2127.4 基于哈希的方法 214第8章 RAG中的Prompt技术 2168.1 特定指令模式 2178.2 指令模板模式 2238.3 代理模式 2278.4 示例模式 2318.5 零样本提示模式 2318.6 少样本提示模式 2338.7 思维链提示模式 2348.7.1 零样本CoT 2358.7.2 少样本CoT 237第9章 动手实现PDF阅读器 2399.1 PDF内容提取 2399.2 PDF文档分块 2419.3 PDF文档向量化 2439.4 PDF文档相似度计算 2449.5 大模型回答 246
- 新华一城书集 (微信公众号认证)
- 上海新华书店官方微信书店
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...