下载APP
登录
关闭
讲堂
算法训练营
Python 进阶训练营
企业服务
极客商城
客户端下载
兑换中心
渠道合作
推荐作者
当前播放: 63 | 网页数据的采集与urllib库
00:00 / 00:00
标清
  • 标清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看

零基础学Python

共71讲 · 71课时·约540分钟
16024
免费
01 | Python语言的特点
免费
02 | Python的发展历史与版本
免费
03 | Python的安装
免费
04 | Python程序的书写规则
免费
05 | 基础数据类型
免费
06 | 变量的定义和常用操作
07 | 序列的概念
08 | 字符串的定义和使用
09 | 字符串的常用操作
10 | 元组的定义和常用操作
11 | 列表的定义和常用操作
12 | 条件语句
13 | for循环
14 | while循环
15 | for循环语句中的if嵌套
16 | while循环语句中的if嵌套
17 | 字典的定义和常用操作
18 | 列表推导式与字典推导式
19 | 文件的内建函数
20 | 文件的常用操作
21 | 异常的检测和处理
22 | 函数的定义和常用操作
23 | 函数的可变长参数
24 | 函数的变量作用域
25 | 函数的迭代器与生成器
26 | Lambda表达式
27 | Python内建函数
28 | 闭包的定义
29 | 闭包的使用
30 | 装饰器的定义
31 | 装饰器的使用
32 | 自定义上下文管理器
33 | 模块的定义
34 | PEP8编码规范
35 | 类与实例
36 | 如何增加类的属性和方法
37 | 类的继承
38 | 类的使用-自定义with语句
39 | 多线程编程的定义
40 | 经典的生产者和消费者问题
41 | Python标准库的定义
42 | 正则表达式库re
43 | 正则表达式的元字符
44 | 正则表达式分组功能实例
45 | 正则表达式库函数match与s...
46 | 正则表达式库替换函数sub...
47 | 日期与时间函数库
48 | 数学相关库
49 | 使用命令行对文件和文件夹...
50 | 文件与目录操作库
51 | 机器学习的一般流程与NumP...
52 | NumPy的数组与数据类型
53 | NumPy数组和标量的计算
54 | NumPy数组的索引和切片
55 | pandas安装与Series结构
56 | Series的基本操作
57 | Dataframe的基本操作
58 | 层次化索引
59 | Matplotlib的安装与绘图
60 | 机器学习分类的原理
61 | Tensorflow的安装
62 | 根据特征值分类的模型和代...
63 | 网页数据的采集与urllib库
64 | 网页常见的两种请求方式ge...
65 | HTTP头部信息的模拟
66 | requests库的基本使用
67 | 结合正则表达式爬取图片链...
68 | Beautiful Soup的安装和...
69 | 使用爬虫爬取新闻网站
70 | 使用爬虫爬取图片链接并下...
71 | 如何分析源代码并设计合理...
本节摘要

课程源码、课件及课后作业地址:

https://github.com/wilsonyin123/geekbangpython

HTML 详细教程请参考:

https://developer.mozilla.org/zh-CN/docs/Learn/HTML

展开

精选留言(6)

  • 2018-07-07
    老师 我看你代码里面编码问题的时候,有时候用 decode("utf-8")这个方法,有时又是直接传个encoding="utf-8"这个参数,你们详细讲讲这两个方法吗,有点不知道什么时候该用哪种方法?

    作者回复: 我想你指的decode和encoding应该是这两个Python语句:
    response = request.urlopen('http://httpbin.org/post', data=data)
    print(response.read().decode('utf-8'))

    data = bytes(parse.urlencode(dict), encoding='utf8')

    这里从字面来看,decode()是函数,encoding是bytes()函数的参数,他们不能放在一起对比,就像雷锋和雷锋塔一样
    那从功能上来看,设计encode()、decode()、bytes()、str()这些函数是做什么用的呢?
    在Python3中严格区分了字符串和字节的概念,在网络的底层传输的文字就是字节形式,而上层是字符串形式,我们”看得懂“的是字符串,但是很多底层函数需要用到字节形式;
    就必然产生了字符串和字节之间相互转换的需求,那么上面提到的几个函数就是用来做字符串和字节之间转换的。
    如我们需要字符串转换成字节,可以使用bytes()或encode()进行转换:
    s='你好'
    b1=s.encode('utf-8') # 使用utf8编码将字符串转换为字节
    b2=bytes(s, encoding='utf-8') #和上面功能一样

    那如果将字节转换回字符串呢?
    b1.decode('utf-8')
    str(b2, encoding='utf-8')

    这就是这几个函数之间的区别了

    3
  • 2019-10-03
    代码如下,老师请问下是什么原因报错呢?
    from urllib import request
    url = 'http://www.baidu.com'
    response = request.urlopen(url,timeout=1)
    print(response.read().decode('utf-8'))

    运行后的错误提示如下:
    Traceback (most recent call last):
      File "C:/Users/Administrator.USER-20190120DJ/PycharmProjects/untitled/63urllib.py", line 8, in <module>
        response = request.urlopen(url,timeout=1)
    NameError: name 'request' is not defined

    Process finished with exit code 1
    展开

    作者回复: 没有复现你的问题,是python3的那个具体版本?
    'request' is not defined 是urllib目录里没有request这个方法

  • 2019-05-11
    尹老师,在pycharm的右下角已经显示了“utf-8”的设置,请问这个设置的作用是?和代码中的“.decode'utf-8'”有什么区别?

    作者回复: 右下角是提示,是pycharm软件根据文件内容自动检测到的, .decode 是程序按照utf-8 编码做的解码工作

  • 2019-05-05
    老师,我这里输入的response. 后面的read() 以及decode()都不会有提示代码提示,自动补齐呢?
  • 2019-01-04
    刚在数据实战的爬虫图片第10讲,看完第1模块,跳着来看爬虫,很有收货,对urllib即刻上手操作啦~
  • 2019-01-01
    from urllib import request

    url = 'http://www.baidu.com'
    response = request.urlopen(url,timeout=5)
    print(response.read().decode('utf-8'))
    老师以上是我的代码运行时下面报错了是什么原因

    File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 222, in urlopen
        return opener.open(url, data, timeout)
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 525, in open
        response = self._open(req, data)
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 543, in _open
        '_open', req)
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 503, in _call_chain
        result = func(*args)
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1345, in http_open
        return self.do_open(http.client.HTTPConnection, req)
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1320, in do_open
        r = h.getresponse()
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 1321, in getresponse
        response.begin()
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 296, in begin
        version, status, reason = self._read_status()
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/http/client.py", line 257, in _read_status
        line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
      File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/socket.py", line 589, in readinto
        return self._sock.recv_into(b)
    socket.timeout: timed out
    展开

    作者回复: 出现大段错误时候不要慌,先从最下面的错误提示看。
    这里的socket是建立网络连接的功能,那么time out 是表示连接超时,也就是你到达对方的网络不通。