实战大模型安全:从对齐技术到系统治理

￥63.20

运费：	¥ 5.00-20.00
库存：	1 件

立即购买

支付：: 微信支付银行卡支付宝

商品详情

杨哲超现任苏州映谷科技有限公司副总裁，曾任中国电信研究院AI研发中心副主任、阿里云产品专家、微软亚太研发集团技术经理。曾中国电信大模型安全评测平台研发，公安智能决策系统等项目，研究成果覆盖通信、云计算及政企核心场景，兼具战略研发与行业落地影响力。赵治斌中国计算机学会会员、 “ 物联网工程师”、全国职业院校技能大赛裁判员。从事人工智能教学教研二十余年，专注大模型技术与AI安全研究，主持省市级课题12项，发表论文10篇。 ??????????????? 内容简介.png

本书系统梳理了大语言模型（LLM，简称大模型）在安全治理与行为对齐方面的核心原理、关键技术与工程实践路径，聚焦构建可信、可控的大模型人工智能系统，以应对当前生成式AI 在安全性、合规性和产业落地中的重大挑战。本书共分为10 章，围绕模型风险识别、语义行为对齐、内容生成管控、训练数据治理、系统级防护、安全评估指标、合规审查流程与行业解决方案八大技术主线，构建出一套完整的大模型安全体系。全书首先深入剖析大模型在语义安全、系统防护、行为不可预测性等方面的挑战，系统介绍监督微调、RLHF、Constitutional AI 等对齐技术，幵结合内容安全机制与训练数据治理提供工程实现路径。随后，聚焦模型推理部署的系统安全，覆盖权限控制、日志审计、接口隔离、伦理合规等维度，强调“可控性”在工业场景下的实现策略。聚焦安全评估工具链、开源平台实践，以及在教育、医疗、法律等高敏行业中的落地方案，为构建可信赖的AI 系统提供工程蓝图。本书兼具系统性与实战性，既有对前沿理论方法的深入剖析，又涵盖可复制的工程实现路径，同时，随书赠送案例代码、授课用PPT 等学习资源（扫封底二维码获取），适合从事人工智能研发、安全工程、合规治理与技术管理的科研人员、工程师、企业技术负责人及政策制定者参考阅读。 ??????????????? 目录简介.png

前言第 1 章　大模型安全概述1.1　大模型面临的核心安全问题1.1.1　语义安全vs 系统安全1.1.2　大模型幻觉现象：生成与事实不一致1.1.3　Prompt 注入与指令滥用1.1.4　模型行为的不可预测性1.2　安全分类体系与威胁建模1.2.1　OWASP for LLMs 安全分类标准1.2.2　STRIDE1.2.3　微调阶段的风险1.2.4　推理服务阶段的风险1.3　大模型安全事件分析1.3.1　ChatGPT 越权回答案例1.3.2　Facebook LLaMA 泄密事件1.3.3　模型生成违法内容审查失败1.3.4　社交媒体中的Prompt 投毒实例1.4　安全治理的技术构成与终目标1.4.1　安全治理vs 对齐机制1.4.2　安全目标矩阵：无害、有用、可控1.4.3　多层防线：数据、模型、接口1.4.4　安全治理的评价指标体系第 2 章　大模型对齐技术原理2.1　大模型对齐技术基础知识2.1.1　人类意图建模的模糊性2.1.2　RICE 大模型对齐的基本流程2.1.3　模型能力增强vs 风险增强2.1.4　对齐失败的后果分类2.2　对齐方法一：监督微调2.2.1　数据格式与构造方法2.2.2　对话语料处理与多轮嵌套2.2.3　多任务对齐与能力迁移2.2.4　典型SFT pipeline 实现2.3　对齐方法二：人类反馈强化学习2.3.1　奖励模型设计原理2.3.2　PPO 训练流程详解2.3.3　训练数据采集与标注平台2.4　对齐方法三：Constitutional AI 与自动对齐2.4.1　宪法规则模板设计2.4.2　模型自我反馈机制构建2.4.3　AutoAlign 与AutoDPO 方法第 3 章　大模型内容安全治理机制3.1　模型输出过滤与毒性检测3.1.1　毒性内容定义与分级3.1.2　过滤模型构建与部署3.1.3　生成文本后处理机制3.1.4　第三方安全接口接入3.2　Prompt 输入安全防御机制3.2.1　Prompt 注入类型与原理3.2.2　正则化检测与模板化防御3.2.3　Rebuff、Boxer 等防护工具使用3.2.4　Prompt 越权检测与上下文污染隔离3.3　模型幻觉与事实校验技术3.3.1　幻觉类型划分与识别指标3.3.2　外部知识增强检索机制3.3.3　事实性评估模型构建3.4　多模态内容风险识别与过滤3.4.1　多模态模型的风险传播路径3.4.2　图像文本联合风险检测机制第 4 章　训练数据安全与对齐数据构建4.1　数据来源合规性与去偏处理4.1.1　开源数据审查清单构建4.1.2　有害数据的清洗与识别算法4.1.3　长尾有害片段检测与切除4.1.4　多语言毒性文本识别工具4.2　对齐训练数据构造方法4.2.1　问答格式标注与用户偏好建模4.2.2　多轮对话生成规则设计4.2.3　合成偏好对比数据与打分策略4.2.4　人机混合生成数据的风险控制4.3　数据打标签与人类反馈采集4.3.1　成本可控的数据标注平台搭建4.3.2　HITL 流程自动化接口设计4.3.3　“一致性十价值判断”双评分体系4.3.4　多标注员评分整合与投票机制第 5 章　推理部署中的安全风险与防护机制5.1　推理架构设计与风险暴露点5.1.1　单节点与分布式推理架构安全对比5.1.2　GPU 资源调度中的越权访问问题5.1.3　模型副本同步与模型泄露风险5.1.4　多用户服务中的上下文污染隔离5.2　API 服务接口安全策略5.2.1　OAuth 2.0 授权机制与访问令牌管理5.2.2　JWT 签名验证与Token 生命周期控制5.2.3　API 速率限制与服务拒防护5.2.4　多租户接口隔离与模型权限绑定5.3　模型调用审计与行为记录5.3.1　日志数据结构设计与存储管理5.3.2　模型调用日志的多维索引与溯源5.3.3　高风险内容的行为回放机制5.3.4　模型输出自动标签与安全评分系统5.4　推理安全优化实战案例5.4.1　基于Triton 的安全部署模板5.4.2　Kubernetes 中LLM 安全推理管控方案5.4.3　零信任架构下的模型隔离部署5.4.4　安全预处理与后处理服务链设计第 6 章　权限控制与用户安全策略设计6.1　用户权限模型构建6.1.1　RBAC 与ABAC 在模型系统中的应用6.1.2　按用户角色划分模型功能6.1.3　多层级Prompt 权限管理6.1.4　基于内容风险等级的调用权限控制6.2　输入内容的来源与可信度评估6.2.1　输入内容身份绑定机制6.2.2　Prompt 日志可信存证与归档6.2.3　输入审查规则动态加载机制6.2.4　上下文联动验证机制设计6.3　用户操作审计与追责机制6.3.1　用户行为指纹机制6.3.2　高风险调用报警与干预机制6.3.3　触发型行为溯源系统6.3.4　用户审计日志6.4　实战项目中的权限配置方法6.4.1　SaaS 系统中多角色权限配置6.4.2　企业内对接LDAPSSO 进行身份统一6.4.3　多服务环境中的权限同步机制6.4.4　针对敏感行业的白名单机制设计第 7 章　大模型法律法规与伦理合规落地7.1　大模型法律法规综述7.1.1　欧盟AI Act 对生成式AI 的规范条款7.1.2　美国NIST AI RMF 框架7.1.3　中国《生成式人工智能服务管理暂行办法》细则7.1.4　日本、印度、新加坡AI 监管策略简介7.2　合规性检查点设计与实施7.2.1　模型输入输出审计机制要求7.2.2　内容分级与发布责任归属策略7.3　模型伦理审查与价值一致性原则7.3.1　伦理审查清单7.3.2　多价值体系间的冲突协调策略第 8 章　安全与对齐效果的测量与评价8.1　对齐质量的评估指标体系8.1.1　HHH 三维标准8.1.2　人工偏好与机器偏好一致性指标8.2　安全性评价方法8.2.1　毒性检测覆盖率评估8.2.2　Prompt 越权测试指标构建8.2.3　幻觉率计算方法8.3　对抗测试与红队攻防8.3.1　红队测试框架设计原则8.3.2　攻防样例构造与注入分析8.3.3　模型鲁棒性测试与逃逸检测8.4　自动化评测工具链实战8.4.1　OpenAI Evals 工具使用8.4.2　Anthropic 安全评估体系介绍第 9 章　安全对齐工具链与开源系统实战9.1　微调与RLHF 工具链9.1.1　Huggingface 十 TRL 对齐微调全流程9.1.2　DeepSpeed 在大模型对齐中的加速方案9.1.3　Reward Model 构建实战与调参策略9.1.4　RLHF 训练中安全防护点插入方式9.2　安全防御模块实战9.2.1　使用Rebuff 防止Prompt 注入9.2.2　接入OpenAI Moderation API 进行输出过滤9.2.3　模型“水印”机制检测与追踪9.2.4　LangChain 十 Guardrails 构建对话控制系统9.3　安全数据采集与评估集构建9.3.1　使用DPO 标注数据构建对齐评估集9.3.2　多语言毒性数据收集与标签分类9.4　从零构建一个安全可控的开源LLM 系统9.4.1　LLaMA 模型微调并集成审查接口9.4.2　Web十API 部署与接口权限绑定9.4.3　发布、运维、灰度管理的安全实战流程第 10 章　面向行业的安全可控大模型解决方案10.1　教育行业：防止误导与偏见内容生成10.1.1　教育对齐数据构造10.1.2　教育答题系统的安全规则模板10.1.3　教育问答系统部署案例解析10.2　医疗行业：风险文本生成与合规责任10.2.1　医疗本体约束下的输出控制10.2.2　医疗问答中的风险提示机制10.2.3　医疗合规与模型责任划分10.3　法律行业：合规文本生成与责任可追溯性10.3.1　法律数据精标体系设计10.3.2　法律模型责任链