

下载APP



关闭

讲堂

算法训练营

Python 进阶训练营

企业服务

极客商城

客户端下载

兑换中心

渠道合作

推荐作者

当前播放: 69 | 使用爬虫爬取新闻网站



00:00 / 00:00

标清

标清

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

零基础学Python



共71讲 · 71课时·约540分钟

 16024

免费

01 | Python语言的特点

免费

02 | Python的发展历史与版本

免费

03 | Python的安装

免费

04 | Python程序的书写规则

免费

05 | 基础数据类型

免费

06 | 变量的定义和常用操作

07 | 序列的概念

08 | 字符串的定义和使用

09 | 字符串的常用操作

10 | 元组的定义和常用操作

11 | 列表的定义和常用操作

12 | 条件语句

13 | for循环

14 | while循环

15 | for循环语句中的if嵌套

16 | while循环语句中的if嵌套

17 | 字典的定义和常用操作

18 | 列表推导式与字典推导式

19 | 文件的内建函数

20 | 文件的常用操作

21 | 异常的检测和处理

22 | 函数的定义和常用操作

23 | 函数的可变长参数

24 | 函数的变量作用域

25 | 函数的迭代器与生成器

26 | Lambda表达式

27 | Python内建函数

28 | 闭包的定义

29 | 闭包的使用

30 | 装饰器的定义

31 | 装饰器的使用

32 | 自定义上下文管理器

33 | 模块的定义

34 | PEP8编码规范

35 | 类与实例

36 | 如何增加类的属性和方法

37 | 类的继承

38 | 类的使用-自定义with语句

39 | 多线程编程的定义

40 | 经典的生产者和消费者问题

41 | Python标准库的定义

42 | 正则表达式库re

43 | 正则表达式的元字符

44 | 正则表达式分组功能实例

45 | 正则表达式库函数match与s...

46 | 正则表达式库替换函数sub...

47 | 日期与时间函数库

48 | 数学相关库

49 | 使用命令行对文件和文件夹...

50 | 文件与目录操作库

51 | 机器学习的一般流程与NumP...

52 | NumPy的数组与数据类型

53 | NumPy数组和标量的计算

54 | NumPy数组的索引和切片

55 | pandas安装与Series结构

56 | Series的基本操作

57 | Dataframe的基本操作

58 | 层次化索引

59 | Matplotlib的安装与绘图

60 | 机器学习分类的原理

61 | Tensorflow的安装

62 | 根据特征值分类的模型和代...

63 | 网页数据的采集与urllib库

64 | 网页常见的两种请求方式ge...

65 | HTTP头部信息的模拟

66 | requests库的基本使用

67 | 结合正则表达式爬取图片链...

68 | Beautiful Soup的安装和...

69 | 使用爬虫爬取新闻网站

70 | 使用爬虫爬取图片链接并下...

71 | 如何分析源代码并设计合理...

本节摘要

课程源码、课件及课后作业地址：

https://github.com/wilsonyin123/geekbangpython

精选留言(8)

鬼金阳

2019-02-02

最近想爬一个aspx网站，发现aspx网站爬虫方法挺复杂的，网上介绍都挺笼统，请问老师有没有这方面比较详细的教程资料？

作者回复: 如果是想系统的爬取一个网站，建议使用框架来实现，视频介绍的是爬虫的原理和自己编写爬虫，建议你参考一下scrapy框架，提供一个中文文档地址：
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html



 1
程序员人生

2019-08-02

这个网页已经爬不了啦

作者回复: 可以用其他静态页面试一下，网站改版了




Lemon

2019-07-29

for in那个语法用了省略的方式，可以再解释的详细一点吗？之前的课没有讲到过




🌟双子嘟🌟🙄�...

2019-07-02

老师，网站的数据如果是页面打开后，通过JS调用接口去生成的，是不是不能使用这种方式

作者回复: 动态网页用selenium+chrome（phantonJS）




不麻烦

2019-04-23

现在运行没有打印数据，是不是别人做了反爬虫？萌新求解

作者回复: 可以将抓取网页部分的代码单独拆分出来，单独运行，看看是否有输出




硕杨Sxuya

2019-03-28

下面是 infoq 改版后网页的获取内容的代码，但是得到的内容并不是浏览器查看html的内容，而是十分少的内容，还有乱麻。请问怎么回事呢？
---
from bs4 import BeautifulSoup
import requests

header_i = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    "Cache-Control": "no-cache",
    "Connection": "keep-alive",
    "Cookie": "_ga=GA1.2.236308595.1542204557; _itt=1; GCID=7d9c08f-e052716-92486ca-1ef06ad-cd; GCESS=BAQEAC8NAAMEbUWUXAIEbUWUXAEEmV4PAAoEAAAAAAYE1hDl2gcEjYGeiwkBAQgBAwsCBAAMAQEFBAAAAAA-; Hm_lvt_094d2af1d9a57fd9249b3fa259428445=1553224053; Hm_lpvt_094d2af1d9a57fd9249b3fa259428445=1553227368; SERVERID=1fa1f330efedec1559b3abbcb6e30f50|1553227540|1553224054",
    "DNT": "1",
    "Host": "www.infoq.cn",
    "Pragma": "no-cache",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
}

url = 'https://www.infoq.cn'

response = requests.get(url, headers=header_i)

soup = BeautifulSoup(response.text, 'lxml')

print(soup.prettify())

展开

作者回复: 您好，因为infoq在视频录制之后网页更新过，因此需要根据具体的报错来调整爬虫的代码。
乱码一般是因为 http头部“ "Accept-Encoding": "gzip, deflate, br",” 信息传递的问题，考虑去掉gzip 再试一下




Nick

2019-01-01

for title_href in soup.find_all('div', class_='news_type_block'):
print([title.get('title')
for title in title_href.find_all('a') if title.get('title')])
最下面两行是啥语法？

展开

作者回复: for in是python的遍历某个对象的语法噢




不想当小白

2018-10-24

请问老师，那个headers={}中的内容怎么获取呀？

作者回复: headers内容来源于标准的http协议的定义，一般我会先使用浏览器访问目标网站，发起第一次请求前，按F12出现浏览器的调试界面，在请求时就可以抓到对应的headers 。当然还能抓到很多其他有用的信息噢





去订阅《零基础学Python》