你将获得

"1. 熟练掌握 requests、BeautifulSoup、XPath 等基础爬虫工具，能独立编写简单网页爬取程序。

2. 深入理解 Scrapy 框架结构与应用，实现从 requests 爬虫到 Scrapy 爬虫的改写与优化。
3. 精通常见反爬虫机制应对策略，包括模拟浏览器行为、验证码识别、代理 IP 使用等核心技巧。
4. 掌握数据库操作、中间件开发和分布式爬虫实现，具备应对复杂爬取场景的实战能力。"

课程介绍

“本课程聚焦 Python 爬虫实战技能，从基础工具到进阶反爬策略，全面覆盖爬虫开发核心知识。第一章围绕基础爬虫与 Scrapy 框架展开，先从简单入手，讲解如何用 requests 编写基础爬虫，结合 BeautifulSoup 和 XPath 解析网页内容，实现自动翻页功能；同步回顾 Python 基础语法与前端 HTML、HTTP 协议基础知识，为爬虫开发筑牢根基。进而深入解析 Scrapy 框架结构与目录结构，通过实战演练将 requests 爬虫改写为 Scrapy 爬虫，并完成电影详情页信息爬取，同时详解 XPath 语法与 yield、推导式等关键技术点，夯实框架应用能力。
第二章聚焦反爬虫机制与进阶技术，首先讲解异常捕获与处理方法及 PyMySQL 数据库操作技巧，为数据存储与稳定爬取提供支撑。重点突破反爬虫难题，包括模拟浏览器头部信息、处理 cookies 验证、使用 WebDriver 模拟浏览器行为、识别验证码等实用策略；深入讲解爬虫中间件原理，实现系统代理 IP 与自定义随机代理 IP 的应用。最终进阶至分布式爬虫技术，帮助学员应对大规模、高难度的爬取场景。
课程通过 “基础工具→框架应用→反爬突破→进阶拓展” 的渐进式学习路径，结合爬取电影详情页、改写爬虫等实战演练，助力学员从零基础逐步掌握爬虫核心技能，轻松应对各类网页爬取需求。”

课程目录

“第一章：requests 爬虫 &Scrapy 爬虫
    1. 用 requests 写一个最简单的爬虫
2. 使用 BeautifulSoup 解析爬取到的网页
3. 使用 XPath 解析网页
4. 实现爬虫的自动翻页功能
5. Python 基础语法回顾
6. 前端基础：HTML 基本结构
7. 前端基础：HTTP 协议
8. Scrapy 框架结构解析
9. Scrapy 爬虫目录结构解析
10. 将 requests 爬虫改写为 Scrapy 爬虫
11. 通过 Scrapy 爬虫爬取电影详情页信息
12. XPath 详解
13. yield 与推导式
第二章：反爬虫机制、Scrapy 中间件和分布式爬虫
    1. 异常捕获与处理
2. 使用 PyMySQL 进行数据库操作
3. 反爬虫：模拟浏览器的头部信息
4. 反爬虫：cookies 验证
5. 反爬虫：使用 WebDriver 模拟浏览器行为
6. 反爬虫：验证码识别
7.  爬虫中间件 & 系统代理 IP
8. 自定义中间件 & 随机代理 IP
9. 分布式爬虫”

查看更多

订阅须知

订阅成功后，推荐通过“极客时间”App 端、Web 端学习。
本课程为虚拟商品，交付形式为视频，一经订阅，概不退款。
订阅后分享海报，每邀一位好友订阅有现金返现。
戳此先充值再购课更划算，还有最新课表、超值赠品福利。
企业采购推荐使用“极客时间企业版”便捷安排员工学习计划，掌握团队学习仪表盘。
戳此申请学生认证，订阅课程享受原价 5 折优惠。
价格说明：划线价、订阅价为商品或服务的参考价，并非原价，该价格仅供参考。未划线价格为商品或服务的实时标价，具体成交价格根据商品或服务参加优惠活动，或使用优惠券、礼券、赠币等不同情形发生变化，最终实际成交价格以订单结算页价格为准。

讲师

尹会生

777417

" 尹会生，生成式 AI 与智能硬件融合创新者，大模型领域连续创业者 & 技术战略专家。曾服务于金山、新浪等大型企业；研发有「生成式 AI 知识库 + 智能硬件」融合系统；国内首批大模型工业化应用实践者，创新性将 RAG 技术应用于智能制造领域，实现业务流程...查看更多