

下载APP



关闭

讲堂

算法训练营

Python 进阶训练营

企业服务

极客商城

客户端下载

兑换中心

渠道合作

推荐作者

当前播放: 63 | 网页数据的采集与urllib库



00:00 / 00:00

标清

标清

1.0x

2.0x
1.5x
1.25x
1.0x
0.5x



网页全屏



全屏

00:00

付费课程，可试看

零基础学Python



共71讲 · 71课时·约540分钟

 16024

免费

01 | Python语言的特点

免费

02 | Python的发展历史与版本

免费

03 | Python的安装

免费

04 | Python程序的书写规则

免费

05 | 基础数据类型

免费

06 | 变量的定义和常用操作

07 | 序列的概念

08 | 字符串的定义和使用

09 | 字符串的常用操作

10 | 元组的定义和常用操作

11 | 列表的定义和常用操作

12 | 条件语句

13 | for循环

14 | while循环

15 | for循环语句中的if嵌套

16 | while循环语句中的if嵌套

17 | 字典的定义和常用操作

18 | 列表推导式与字典推导式

19 | 文件的内建函数

20 | 文件的常用操作

21 | 异常的检测和处理

22 | 函数的定义和常用操作

23 | 函数的可变长参数

24 | 函数的变量作用域

25 | 函数的迭代器与生成器

26 | Lambda表达式

27 | Python内建函数

28 | 闭包的定义

29 | 闭包的使用

30 | 装饰器的定义

31 | 装饰器的使用

32 | 自定义上下文管理器

33 | 模块的定义

34 | PEP8编码规范

35 | 类与实例

36 | 如何增加类的属性和方法

37 | 类的继承

38 | 类的使用-自定义with语句

39 | 多线程编程的定义

40 | 经典的生产者和消费者问题

41 | Python标准库的定义

42 | 正则表达式库re

43 | 正则表达式的元字符

44 | 正则表达式分组功能实例

45 | 正则表达式库函数match与s...

46 | 正则表达式库替换函数sub...

47 | 日期与时间函数库

48 | 数学相关库

49 | 使用命令行对文件和文件夹...

50 | 文件与目录操作库

51 | 机器学习的一般流程与NumP...

52 | NumPy的数组与数据类型

53 | NumPy数组和标量的计算

54 | NumPy数组的索引和切片

55 | pandas安装与Series结构

56 | Series的基本操作

57 | Dataframe的基本操作

58 | 层次化索引

59 | Matplotlib的安装与绘图

60 | 机器学习分类的原理

61 | Tensorflow的安装

62 | 根据特征值分类的模型和代...

63 | 网页数据的采集与urllib库

64 | 网页常见的两种请求方式ge...

65 | HTTP头部信息的模拟

66 | requests库的基本使用

67 | 结合正则表达式爬取图片链...

68 | Beautiful Soup的安装和...

69 | 使用爬虫爬取新闻网站

70 | 使用爬虫爬取图片链接并下...

71 | 如何分析源代码并设计合理...

本节摘要

课程源码、课件及课后作业地址：

https://github.com/wilsonyin123/geekbangpython

HTML 详细教程请参考：

https://developer.mozilla.org/zh-CN/docs/Learn/HTML

展开



精选留言(6)

楚耳

2018-07-07

老师我看你代码里面编码问题的时候，有时候用 decode("utf-8")这个方法，有时又是直接传个encoding="utf-8"这个参数，你们详细讲讲这两个方法吗，有点不知道什么时候该用哪种方法？

作者回复: 我想你指的decode和encoding应该是这两个Python语句：
response = request.urlopen('http://httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

data = bytes(parse.urlencode(dict), encoding='utf8')

这里从字面来看，decode()是函数，encoding是bytes()函数的参数，他们不能放在一起对比，就像雷锋和雷锋塔一样
那从功能上来看，设计encode()、decode()、bytes()、str()这些函数是做什么用的呢？
在Python3中严格区分了字符串和字节的概念，在网络的底层传输的文字就是字节形式，而上层是字符串形式，我们”看得懂“的是字符串，但是很多底层函数需要用到字节形式；
就必然产生了字符串和字节之间相互转换的需求，那么上面提到的几个函数就是用来做字符串和字节之间转换的。
如我们需要字符串转换成字节，可以使用bytes()或encode()进行转换：
s='你好'
b1=s.encode('utf-8') # 使用utf8编码将字符串转换为字节
b2=bytes(s, encoding='utf-8') #和上面功能一样

那如果将字节转换回字符串呢？
b1.decode('utf-8')
str(b2, encoding='utf-8')

这就是这几个函数之间的区别了



 3
Ranchro

2019-10-03

代码如下，老师请问下是什么原因报错呢？
from urllib import request
url = 'http://www.baidu.com'
response = request.urlopen(url,timeout=1)
print(response.read().decode('utf-8'))

运行后的错误提示如下：
Traceback (most recent call last):
File "C:/Users/Administrator.USER-20190120DJ/PycharmProjects/untitled/63urllib.py", line 8, in <module>
response = request.urlopen(url,timeout=1)
NameError: name 'request' is not defined

Process finished with exit code 1

展开

作者回复: 没有复现你的问题，是python3的那个具体版本？
'request' is not defined 是urllib目录里没有request这个方法




Neo

2019-05-11

尹老师，在pycharm的右下角已经显示了“utf-8”的设置，请问这个设置的作用是？和代码中的“.decode'utf-8'”有什么区别？

作者回复: 右下角是提示，是pycharm软件根据文件内容自动检测到的， .decode 是程序按照utf-8 编码做的解码工作




rice5

2019-05-05

老师，我这里输入的response. 后面的read() 以及decode()都不会有提示代码提示，自动补齐呢？




JingZ

2019-01-04

刚在数据实战的爬虫图片第10讲，看完第1模块，跳着来看爬虫，很有收货，对urllib即刻上手操作啦~




八点二十

2019-01-01

from urllib import request

url = 'http://www.baidu.com'
response = request.urlopen(url,timeout=5)
print(response.read().decode('utf-8'))
老师以上是我的代码运行时下面报错了是什么原因

File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 222, in urlopen
    return opener.open(url, data, timeout)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 525, in open
    response = self._open(req, data)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 543, in _open
    '_open', req)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 503, in _call_chain
    result = func(*args)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1345, in http_open
    return self.do_open(http.client.HTTPConnection, req)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1320, in do_open
    r = h.getresponse()
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 1321, in getresponse
    response.begin()
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 296, in begin
    version, status, reason = self._read_status()
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 257, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
socket.timeout: timed out

展开

作者回复: 出现大段错误时候不要慌，先从最下面的错误提示看。
这里的socket是建立网络连接的功能，那么time out 是表示连接超时，也就是你到达对方的网络不通。





去订阅《零基础学Python》