机械工业出版社旗舰店店铺主页二维码
机械工业出版社旗舰店 微信认证
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

官网 大数据采集与预处理 李俊翰 教材 9787111757917 机械工业出版社

50.40
运费: 免运费
官网 大数据采集与预处理 李俊翰 教材 9787111757917 机械工业出版社 商品图0
官网 大数据采集与预处理 李俊翰 教材 9787111757917 机械工业出版社 商品缩略图0

商品详情

书名:大数据采集与预处理
定价:69.0
ISBN:9787111757917
作者:李俊翰
版次:1

内容提要:


本书共分两部分:第一部分是网络数据采集与预处理的基础理论实践,包括任务1~任务6,主要讲解如何使用Python编写网络数据采集和预处理程序,内容包括Python环境搭建,Python基础语法、语句与函数,网络基础知识,常用网络数据采集与预处理库、解析库,数据持久化保存,以及requests库、numpy库、pandas库、Selenium技术、ChromeDriver技术和Scrapy技术的应用方式。第二部分是网络数据采集与预处理的综合案例,包括任务7~任务9,主要讲解requests库数据采集与ECharts可视化技术相结合以展示数据,并持久化保存数据、预处理数据的应用案例;Selenium和ChromeDriver技术相结合模拟登录,采集动态和静态数据,并持久化保存数据和预处理数据的应用案例;Hadoop平台的Flume日志数据采集应用案例,充分呈现了大数据采集与预处理主流技术、可视化技术的主要功能和特点。

本书可作为高等职业院校、职业本科院校大数据技术及相关专业的教材,也可作为有一定Python编程经验并且对数据采集与预处理技术感兴趣的工程技术人员的参考用书。






目录:


前言

第一部分基础理论实践

任务1Python环境搭建——编写“Welcome to Python!”程序

1.1任务描述

1.2Python概述

1.3Python编程环境搭建

1.3.1在Windows环境下的安装

1.3.2在 Linux 环境下的安装

1.3.3在macOS环境下的安装

1.4安装集成开发环境PyCharm

1.4.1PyCharm概述

1.4.2PyCharm的安装和运行

1.5Python基础语法

1.5.1整型

1.5.2浮点型

1.5.3字符串

1.5.4列表

1.5.5集合

1.5.6字典

1.5.7元组

1.6Python语句与函数

1.6.1条件判断语句

1.6.2循环语句

1.6.3自定义函数

1.7任务实现

1.8小结

1.9习题

任务2实现简单数据采集——采集业务网站页面数据

2.1任务描述

2.2爬虫基础知识

2.2.1网络爬虫概述

2.2.2爬虫的法律和道德

2.2.3Python爬虫的工作过程

2.3网络知识基础

2.3.1HTML

2.3.2URI和URL

2.3.3HTTP

2.3.4Request和Response

2.4requests库

2.4.1requests库概述

2.4.2requests库安装

2.4.3requests库的基本用法

2.5lxml库和BeautifulSoup库

2.5.1lxml库概述

2.5.2BeautifulSoup库概述

2.5.3lxml库和BeautifulSoup库安装

2.5.4lxml库和BeautifulSoup库的基本用法

2.6任务实现

2.7数据预处理基础

2.7.1数据预处理概述

2.7.2数据清洗

2.7.3数据集成

2.7.4数据转换

2.7.5数据规约

2.7.6数据预处理工具

2.8小结

2.9习题  

任务3存储数据——学生就业信息数据读写和数据持久化

3.1任务描述

3.2MySQL

3.2.1MySQL概述

3.2.2MySQL安装

3.2.3MySQL Workbench的操作

3.3PyMySQL

3.3.1PyMySQL和MySQL的区别

3.3.2PyMySQL安装

3.3.3PyMySQL的用法

3.4CSV和JSON

3.4.1CSV概述

3.4.2输出CSV文件头部

3.4.3使用Python读取CSV文件数据

3.4.4使用Python写入CSV文件数据

3.4.5JSON概述

3.4.6使用Python读取JSON文件数据

3.4.7使用Python写入JSON文件数据

3.5任务实现

3.6小结

3.7习题

任务4requests库技术应用案例——静态数据和动态数据采集

4.1任务描述

4.2静态数据和动态数据

4.2.1静态数据基本概念

4.2.2动态数据基本概念

4.2.3AJAX的起源

4.2.4AJAX概述

4.2.5AJAX的特点

4.3子任务1:业务网站A静态数据采集

4.3.1页面分析

4.3.2获取静态数据

4.3.3数据持久化保存

4.3.4网页分页爬取的翻页操作实现

4.3.5数据预处理

4.3.6任务实现

4.4子任务2:业务网站B静态数据采集

4.4.1页面分析

4.4.2获取静态数据

4.4.3数据持久化保存

4.4.4数据预处理

4.4.5任务实现

4.5子任务3:业务网站C动态数据采集

4.5.1页面分析

4.5.2获取动态数据

4.5.3数据持久化保存

4.5.4任务实现

4.6子任务4:业务网站D静态数据采集

4.6.1业务网站D概述

4.6.2业务网站D的基本用法

4.6.3Web API概述

4.6.4业务网站D开放API的数据特点

4.6.5业务网站D的API请求数据

4.6.6获取API的响应数据

4.6.7处理API的响应数据

4.6.8任务实现

4.7小结

4.8习题

任务5ChromeDriver和Selenium技术应用案例——网站数据采集

5.1任务描述

5.2ChromeDriver

5.2.1ChromeDriver概述

5.2.2ChromeDriver安装

5.3Selenium

5.3.1Selenium概述

5.3.2Selenium安装

5.4任务实现:业务网站数据采集

5.4.1页面分析

5.4.2数据获取

5.4.3数据持久化保存

5.5小结

5.6习题

任务6Scrapy技术应用案例——框架式数据采集

6.1任务描述

6.2Scrapy

6.2.1Scrapy概述

6.2.2Scrapy工作原理

6.2.3Scrapy安装

6.3Scrapy组件

6.3.1Selector

6.3.2Spider

6.3.3Downloader Middleware

6.3.4Item Pipeline

6.4任务实现:业务网站数据采集

6.4.1页面分析

6.4.2数据获取

6.4.3数据持久化保存

6.5小结

6.6习题

第二部分综合案例

任务7数据采集与可视化案例

7.1任务描述

7.2数据可视化技术

7.2.1Flask概述

7.2.2ECharts概述

7.3任务实现:业务网站二手房数据采集与可视化

7.3.1页面分析

7.3.2数据获取

7.3.3数据持久化保存

7.3.4数据可视化

7.3.5数据探索与转换

7.3.6任务实现

7.4小结

7.5习题

任务8爬取指定业务网站案例8.1任务描述

8.2页面分析

8.3模拟登录

8.3.1模拟登录的总体步骤

8.3.2模拟登录业务逻辑和代码详解

8.4获取静态数据

8.4.1静态数据获取的总体步骤

8.4.2静态数据获取业务逻辑和代码详解

8.5获取动态数据

8.5.1动态数据获取的总体步骤

8.5.2动态数据获取业务逻辑和代码详解

8.6数据持久化保存

8.7数据预处理

8.8小结

8.9习题

任务9Hadoop平台的Flume日志数据采集应用案例

9.1任务描述

9.2Hadoop介绍

9.2.1Hadoop核心组件和工作原理

9.2.2Hadoop生态圈简介

9.3Flume介绍

9.4Flume安装和配置

9.4.1Flume的安装

9.4.2Flume的配置

9.5Flume的应用

9.5.1采集文件夹下的增量数据到HDFS

9.5.2采集TCP端口数据到控制台

9.6小结

9.7习题

参考文献



机械工业出版社旗舰店店铺主页二维码
机械工业出版社旗舰店 微信公众号认证
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

官网 大数据采集与预处理 李俊翰 教材 9787111757917 机械工业出版社

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:cmp1952
机工书院官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏