商品详情
书名:Python3网络爬虫开发实战第2版
定*:139.8
ISBN:9787**5577092
作者:崔庆才
版次:第2版
出版时间:202*-**
内容提要:
本书介绍了如何利用 Python 3 开发网络爬虫。本书为第 2 版,相比于第 * 版,为每个知识点的实战项目配备了针对性的练习平台,避*了案例过期的问题。另外,主要增加了异步爬虫、JavaScript 逆向、App 逆向、页面智能解析、深度学习识别验证码、Kubernetes 运维及*署等知识点,同时也对各个爬虫知识点涉及的请求、存储、解析、测试等工具进行了丰富和更新。 本书适合Python 程序员阅读。
作者简介:
崔庆才 微软(中*)软件工程师,北京航空航天大学硕士,主要研究网络爬虫、Web 开发、机器学习等方向。
目录:
第 *章 爬虫基础 *
*.* HTTP基本原理 *
*.2 Web 网页基础 *2
*.3 爬虫的基本原理 *9
*.4 Session和Cookie 2*
*.5 代理的基本原理 24
*.6 多线程和多进程的基本原理 26
第 2章 基本库的使用 29
2.* urllib的使用 29
2.2 requests的使用 47
2.3 正则表达式 63
2.4 httpx的使用 73
2.5 基础爬虫案例实战 78
第3章 网页数据的解析提取 90
3.* XPath的使用 90
3.2 Beautiful Soup的使用 99
3.3 pyquery的使用 **3
3.4 parsel 的使用 *24
第4章 数据的存储 *28
4.* TXT 文本文件存储 *28
4.2 JSON 文件存储 *30
4.3 CSV 文件存储 *34
4.4 MySQL 存储 *38
4.5 MongoDB 文档存储 *44
4.6 Redis缓存存储 *5*
4.7 Elasticsearch 搜索引擎存储 *59
4.8 RabbitMQ 的使用 *66
第5章 Ajax 数据爬取 *74
5.* 什么是 Ajax *74
5.2 Ajax分析方法 *76
5.3 Ajax 分析与爬取实战 *79
第6章 异步爬虫 *9*
6.* 协程的基本原理 *9*
6.2 aiohttp的使用 20*
6.3 aiohttp 异步爬取实战 207
第7章 JavaScript 动态渲染页面爬取 2*2
7.* Selenium 的使用 2*2
7.2 Splash 的使用 226
7.3 Pyppeteer 的使用 242
7.4 Playwright 的使用 257
7.5 Selenium 爬取实战 269
7.6 Pyppeteer 爬取实战 276
7.7 CSS 位置偏移反爬案例分析与爬取实战 282
7.8 字体反爬案例分析与爬取实战 287
第8章 验证码的识别 293
8.* 使用 OCR 技术识别图形验证码 293
8.2 使用 OpenCV 识别滑动验证码的缺口 298
8.3 使用深度学习识别图形验证码 304
8.4 使用深度学习识别滑动验证码的缺口 309
8.5 使用打码平台识别验证码 3*6
8.6 手机验证码的自动化处理 324
第9章 代理的使用 33*
9.* 代理的设置 33*
9.2 代理池的维护 340
9.3 付费代理的使用 35*
9.4 ADSL 拨号代理的搭建方法 357
9.5 代理反爬案例爬取实战 365
第 *0章 模拟登录 373
*0.* 模拟登录的基本原理 373
*0.2 基于Session和Cookie的模拟登录爬取实战 376
*0.3 基于JWT的模拟登录爬取实战 38*
*0.4 大规模账号池的搭建 385
第 **章 JavaScript 逆向爬虫 397
**.* 网站加密和混淆技术简介 397
**.2 浏览器调试常用技巧 4*3
**.3 JavaScript Hook 的使用 430
**.4 *限 debugger 的原理与绕过 440
**.5 使用 Python 模拟执行 JavaScript 445
**.6 使用 Node.js 模拟执行 JavaScript 45*
**.7 浏览器环境下 JavaScript 的模拟执行 454
**.8 AST 技术简介 460
**.9 使用 AST 技术还原混淆代码 472
**.*0 *殊混淆案例的还原 480
**.** WebAssembly 案例分析和爬取实战 490
**.*2 JavaScript 逆向技巧总结 498
**.*3 JavaScript 逆向爬取实战 505
第 *2章 App 数据的爬取 530
*2.* Charles 抓*工具的使用 530
*2.2 mitmproxy 抓*工具的使用 538
*2.3 mitmdump 实时抓*处理 544
*2.4 Appium 的使用 55*
*2.5 基于 Appium 的 App 爬取实战 562
*2.6 Airtest 的使用 568
*2.7 基于 Airtest 的 App 爬取实战 585
*2.8 手机群控爬取实战 59*
*2.9 云手机的使用 594
第 *3章 Android 逆向 603
*3.* jadx 的使用 603
*3.2 JEB 的使用 6*5
*3.3 Xposed 框架的使用 624
*3.4 基于 Xposed 的爬取实战案例 635
*3.5 Frida 的使用 643
*3.6 SSL Pining 问题的解决方案 650
*3.7 Android 脱壳技术简介与实战 657
*3.8 利用 IDA Pro 静态分析和动态调试 so 文件 664
*3.9 基于 Frida-RPC 模拟执行 so 文件 680
*3.*0 基于 AndServer-RPC 模拟执行 so 文件 685
*3.** 基于 unidbg 模拟执行 so 文件 692
第 *4章 页面智能解析 700
*4.* 页面智能解析简介 700
*4.2 详情页智能解析算法简介 707
*4.3 详情页智能解析算法的实现 7*4
*4.4 列表页智能解析算法简介 722
*4.5 列表页智能解析算法的实现 727
*4.6 如何智能分辨列表页和详情页 735
第 *5章 Scrapy框架的使用 739
*5.* Scrapy框架介绍 739
*5.2 Scrapy入门 743
*5.3 Selector 的使用 754
*5.4 Spider 的使用 759
*5.5 Downloader Middleware的使用 766
*5.6 Spider Middleware的使用 775
*5.7 Item Pipeline的使用 78*
*5.8 Extension的使用 792
*5.9 Scrapy 对接 Selenium 795
*5.*0 Scrapy 对接 Splash 80*
*5.** Scrapy 对接 Pyppeteer 806
*5.*2 Scrapy 规则化爬虫 8*3
*5.*3 Scrapy 实战 827
第 *6章 分布式爬虫 840
*6.* 分布式爬虫理念 840
*6.2 Scrapy-Redis原理和源码解析 842
*6.3 基于Scrapy-Redis的分布式爬虫实现 847
*6.4 基于Bloom Filter进行大规模去重 85*
*6.5 基于RabbitMQ的分布式爬虫 859
第 *7章 爬虫的管理和*署 862
*7.* Scrapyd和ScrapydAPI的使用 862
*7.2 Scrapyd-Client 的使用 867
*7.3 Gerapy 爬虫管理框架的使用 869
*7.4 将Scrapy 项目打*成 Docker 镜像 873
*7.5 Docker Compose 的使用 878
*7.6 Kubernetes的使用 880
*7.7 用 Kubernetes *署和管理 Scrapy 爬虫 888
*7.8 Scrapy 分布式爬虫的数据统计方案 899
*7.9 基于Prometheus和Grafana的分布式爬虫监控方案 904
附录 爬虫与法律 9*7
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...