你好,我是尹会生。
这一章,我为你展示了如何使用 Python,实现数据分析工作中的数据采集、清洗、存储、分析,以及展示各个环节的工作。从视频中我们知道,Python 能够实现数据分析工作中的绝大多数功能,所以 Python 也成为很多数据分析师手中的利器,甚至 Python 还可以通过第三方库支持很多现成的数据分析算法,让你开箱即用。
在数据分析过程中,我们除了使用 Python 的基本功能外,很多时候还要使用 Python 的第三方库来实现更加强大的功能,那么这一讲,我来为你盘点一下功能强大又使用便利的第三方库,让你在数据分析工作中能够事半功倍。
首先,我们将数据分析中常用的库按照数据采集、数据清洗、数据分析分成 3 个部分,下面我们依次介绍一下这 3 个部分。我们先来看数据采集常用的 Python 库。
利用 Python 做数据采集工作时,我们用得最多的是 Requests、Selenium、Charles 三个库。其中前两个库用来采集 PC 端 HTTP 接口的数据,最后一个用来采集手机端 App 数据。我们一个一个来详细了解它们。
Requests 库号称是“对人类友好的 HTTP 库”,这也是即使 Python 标准库中已经有了功能非常强大的 HTTP 库,我还会再推荐它的原因。那么 Requests 库的友好体现在哪里呢?