应用回归及分类——基于R与Python的实现(第3版)(基于R应用的统计学丛书)吴喜之 张敏
| 运费: | ¥ 0.00-20.00 |
商品详情
应用回归及分类——基于R与Python的实现(第3版)(基于R应用的统计学丛书)
作者:吴喜之 张敏
书号:337753
定价:¥56 元
字数:416 千字
印次:3-1
开本:16
出版时间:2025-05-06
ISBN:978-7-300-33775-3
包装:平
内容简介
本书以革新传统教材的视角,系统性地融合经典统计学与前沿机器学习算法,强调回归与分类问题的同等重要性。本书突破传统教材偏重数学推导与线性回归的局限,深入探讨计算机时代兴起的机器学习算法在分类领域的卓越表现。内容以数据驱动为核心,摒弃对模型假设的过度依赖,倡导通过交叉验证等客观方法评估模型性能,并依据数据特性灵活选择最优解法。
书中实践导向鲜明,全程结合R与Python两大开源工具,通过丰富的案例演示从数据预处理到模型构建的全流程,确保读者能独立完成分析并得出可靠的结论。与传统教材不同,本书直面各类方法的局限性,对比不同场景下模型的优缺点,鼓励读者进行批判性的思考。同时,强调开源生态的资源优势,助力读者紧跟统计学飞速发展的步伐。
本书秉承“授人以渔”的理念,不仅传授知识,更培养自主探索意识,倡导通过编程实践提升解决复杂问题的能力。其内容设计兼顾学术严谨与实用价值,是连接传统统计与现代机器学习的桥梁,适合渴望突破固有思维、掌握前沿工具的读者。
作者介绍
吴喜之 北京大学数学力学系本科毕业,北卡罗来纳大学统计学博士。中国人民大学统计学院教授,博士生导师。曾在南开大学、北京大学、加利福尼亚大学、北卡罗来纳大学等多所著名学府执教。
张 敏 重庆工商大学讲师。作为第一作者发表CSSCI、CSCD、SCI文章多篇,主持或参与国家级及省部级课题多项,作为第二作者出版关于数据科学的教材多部。
目 录
第1章 引言
1.1 作为科学的统计
1.2 数据及模型
1.3 关于软件的说明
1.4 有监督学习传统统计方法与各机器学习方法的交叉验证比较
1.5 习题
1.6 本章的R和Python代码
第2章 经典线性回归
2.1 模型形式
2.2 用最小二乘法估计线性模型
2.3 回归系数的大小没有可解释性
2.4 传统统计关于线性回归系数的性质和推断*
2.5 通过一个“教材数据”来理解简单最小二乘回归
2.6 处理线性回归多重共线性的经典方法*
2.7 损失函数及分位数回归简介*
2.8 习题
2.9 本章的R和Python代码
第3章 广义线性模型
3.1 模型
3.2 指数分布族及典则连接函数
3.3 似然函数和准似然函数
3.4 广义线性模型的一些推断问题
3.5 logistic回归和二元分类问题
3.6 Poisson 对数线性模型及频数数据的预测*
3.7 习题
3.8 本章的Python代码
第4章 机器学习: 有监督学习
4.1 引言
4.2 决策树
4.3 集成算法的思想
4.4 bagging方法
4.5 随机森林
4.6 AdaBoost分类
4.7 mboost回归
4.8 Xgboost模型
4.9 神经网络
4.10 支持向量机
4.11 k最近邻方法
4.12 朴素贝叶斯分类
4.13 案例分析: 例4.8服装业生产率数据
4.14 案例分析: 例4.9信用卡批准数据
4.15 习题
4.16 本章的R和Python代码
第5章 判别分析*
5.1 线性判别分析
5.2 Fisher判别分析
5.3 混合线性判别分析
5.4 习题
第6章 混合效应模型*
6.1 概念
6.2 通过一个数值例子解释线性混合模型
6.3 线性混合模型的一般形式
6.4 广义线性混合模型
6.5 决策树关联的混合模型
6.6 对例6.2数学分数数据做第6章方法与其他模型的比较
6.7 Python对例6.2数学分数数据的MERF模型及其他模型比较
6.8 习题
第7章 生存分析及Cox模型*
7.1 基本概念
7.2 生存函数的Kaplan-Meier估计
7.3 累积危险函数
7.4 估计和检验*
7.5 Cox比例危险模型
7.6 习题
7.7 本章的Python代码
参考文献
精彩样章
本书的宗旨就是既要介绍传统的回归和分类方法,又要引入大量更加有效的机器学习方法,并且通过实际例子,运用R和Python两种软件来让读者理解各种方法的意义和实践,能够自主做数据分析并得到结论.
传统的回归分析教材,通常只讲所述方法能够做什么,不讲其缺点和局限性,并且很少涉及其他可用的方法,而本书以数据为导向,对应不同的数据介绍尽可能多的方法,并且说明各种方法的优点、缺点及适用范围. 对于不同模型的比较,本书将主要采用客观的交叉验证方法. 对于每一个数据以及通过数据所要达到的目的,都有许多不同的方法可用,但具体哪种方法或模型最适合,则依数据及目标而定,绝不事先决定.
本书所有的分析都通过免费的开源R及Python来实现. 读者可以毫不困难地重复本书所有的计算. R网站拥有世界各地统计学家贡献的大量最新程序包,这些程序包以飞快的速度增加和更新,已从2009年底的不到一千个增加到2024年初的两万两千多个. 它们代表了统计学家创造的针对各个统计方向及不同应用领域的崭新统计方法. 这些程序包的代码大多是公开的. 与此相对比,所有商业软件远没有如此多的资源,也不会更新得如此之快,而且商业软件的代码都是保密的昂贵“黑匣子”. 作为通用软件的Python拥有各种方法的大量资源,但由于其用途非常广泛,而不仅仅限于数据分析,因此看上去数据分析部分的比例不如 R大.
- 人民大学出版社微店 (微信公众号认证)
- 人大出版社自营微店,正版人大出版社书籍直发,品质保证!
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...