商品详情
书名:大数据分析技术
定价:59.0
ISBN:9787111712084
作者:李俊翰
版次:1
出版时间:2024-05
内容提要:
本书主要面向高职大数据技术专业的学生,注重大数据分析技术的应用和实践。本书每个项目主要分为两个部分。第一部分是大数据分析技术的理论知识,主要讲解了大数据分析模型、Python数据分析工具、NumPy和Pandas数据分析库、Matplotlib数据分析可视化库、Hadoop及其常用组件以及scikit-learn机器学习库的基本原理和操作。第二部分是任务实施,通过17个实操任务充分展现了大数据分析技术的主要功能和特点。
本书既可作为高等职业院校大数据技术、信息安全与管理、软件技术、计算机网络技术、云计算技术等专业的教材,也适合有一定Python编程经验并对大数据分析技术感兴趣的读者阅读。
目录:
目录
前言
项目1 认识大数据分析
1.1 大数据分析概述
1.1.1 大数据分析的概念和发展
1.1.2 大数据分析的作用和影响
1.2 大数据分析模型
1.2.1 大数据分析的技术和工具
1.2.2 大数据分析的流程
1.2.3 大数据分析的模型简介
【任务实施】
任务1 网站用户活跃度指标综合分析
任务2 身高体重指标数据关联分析
练习题
项目2 安装Python数据分析工具
2.1 Python数据分析基本概念
2.1.1 Python数据分析的特点
2.1.2 Python与其他数据分析工具的比较
2.2 Python数据分析常用库介绍
2.2.1 NumPy简介
2.2.2 Pandas简介
2.2.3 SciPy简介
2.2.4 Matplotlib简介
2.2.5 scikit-learn简介
2.2.6 Statmodels简介
2.2.7 Seaborn简介
【任务实施】
任务1 在Windows系统中安装Anaconda
任务2 运行Jupyter Notebook
任务3 PyCharm的安装和使用
练习题
项目3 使用NumPy实现统计分析和处理
3.1 NumPy的基本概念
3.1.1 NumPy基础理论和引用方法
3.1.2 ndarry对象
3.1.3 NumPy数据类型
3.1.4 NumPy数组属性
3.1.5 NumPy切片和索引
3.2 NumPy函数
3.2.1 NumPy数学函数
3.2.2 NumPy数组维度操作函数
3.2.3 NumPy创建数组函数
3.2.4 NumPy常用IO函数
3.2.5 NumPy广播
【任务实施】
任务1 使用Numpy实现股票数据分析
任务2 使用Numpy实现豆瓣电影数据
分析
练习题
项目4 Pandas数据分析和处理
4.1 Pandas的基本概念
4.1.1 Pandas基础理论和引用方法
4.1.2 Pandas基本数据结构
4.2 Pandas的基本用法
4.2.1 创建Pandas对象
4.2.2 查看Pandas基本数据
4.2.3 Pandas索引和切片
4.2.4 Pandas缺失值和空值处理
4.2.5 Pandas连接和合并数据
4.2.6 Pandas分组
4.2.7 Pandas重塑
4.2.8 Pandas数据透视表
4.2.9 Pandas时间序列
4.2.10 Pandas分类
4.2.11 Pandas IO操作
【任务实施】
任务1 使用Pandas实现水果销售数据分析
任务2 使用Pandas实现用户消费行为数据分析
任务3 使用Pandas实现电商销售数据分析
练习题
项目5 Matplotlib数据分析可视化库
5.1 Matplotlib的基本概念
5.1.1 Matplotlib基础理论和引用方法
5.1.2 散点图
5.1.3 条形图
5.1.4 折线图
5.1.5 饼图
5.1.6 直方图
5.1.7 箱形图
5.2 组合图
5.2.1 曲线组合图
5.2.2 柱状、散点、折线组合图
5.2.3 直方图组合图123 【任务实施】
任务1 使用饼图实现零售总额数据分析
任务2 使用折线图实现零售总额数据分析
任务3 使用双柱状图实现零售总额变化情况数据分析
练习题
项目6 基于Hadoop的数据分析
6.1 掌握Hadoop框架和生态组件
6.1.1 Hadoop简介
6.1.2 Hadoop核心组件和工作原理
6.1.3 Hadoop安装、部署和应用
6.2 Hadoop生态组件
6.2.1 Hadoop生态圈简介
6.2.2 Hive的安装、部署和应用
6.2.3 Spark的安装、部署和应用
6.2.4 HBase的安装、部署和应用
6.2.5 Kafka的安装、部署和应用
6.2.6 Flume的安装、部署和应用
6.2.7 Sqoop的安装、部署和应用
6.2.8 Zookeeper的安装、部署和应用
【任务实施】
任务1 使用Hadoop及其组件Hive实现数据分析
任务2 使用Hadoop及其组件Spark实现数据分析
练习题
项目7 基于scikit-learn机器学习库的数据分析
7.1 掌握机器学习基本概念
7.1.1 机器学习简介
7.1.2 机器学习基本流程
7.1.3 机器学习开发流程
7.1.4 机器学习算法分类
7.2 掌握scikit-learn的基本用法
7.2.1 scikit-learn的安装和引用方法
7.2.2 scikit-learn的基本用法
【任务实施】
任务1 使用scikit-learn实现鸢尾花数据分析
任务2 使用scikit-learn实现波士顿房价数据分析
练习题
参考文献
- 机械工业出版社旗舰店 (微信公众号认证)
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...