93｜再回首：“数据分析”单元小结-零基础学Python（2023版）-极客时间

这一章，我为你展示了如何使用 Python，实现数据分析工作中的数据采集、清洗、存储、分析，以及展示各个环节的工作。从视频中我们知道，Python 能够实现数据分析工作中的绝大多数功能，所以 Python 也成为很多数据分析师手中的利器，甚至 Python 还可以通过第三方库支持很多现成的数据分析算法，让你开箱即用。

在数据分析过程中，我们除了使用 Python 的基本功能外，很多时候还要使用 Python 的第三方库来实现更加强大的功能，那么这一讲，我来为你盘点一下功能强大又使用便利的第三方库，让你在数据分析工作中能够事半功倍。

首先，我们将数据分析中常用的库按照数据采集、数据清洗、数据分析分成 3 个部分，下面我们依次介绍一下这 3 个部分。我们先来看数据采集常用的 Python 库。

数据采集

利用 Python 做数据采集工作时，我们用得最多的是 Requests、Selenium、Charles 三个库。其中前两个库用来采集 PC 端 HTTP 接口的数据，最后一个用来采集手机端 App 数据。我们一个一个来详细了解它们。

Requests 库号称是“对人类友好的 HTTP 库”，这也是即使 Python 标准库中已经有了功能非常强大的 HTTP 库，我还会再推荐它的原因。那么 Requests 库的友好体现在哪里呢？

登录后留言

全部留言(7)

最新
精选

刘永超

尹老师的课提纲挈领，精简通透，娓娓道来，实战代码丰富，从中感受专家的技术魅力，感谢尹老师！感谢极客时间，让专家就在身边。

作者回复: 谢谢，一起加油

2023-01-24





Geek_631607

在 Python 中，你可以使用各种库来抓取和保存非文字类数据。以下是一些基本的步骤和代码示例： 1. **获取数据的地址**：通常，非文字类数据（如图片或声音文件）在网页上以链接的形式存在。你可以使用 `requests` 库来获取网页的内容，然后使用 `BeautifulSoup` 库来解析网页并提取出数据的链接。以下是一个简单的代码示例： ```python from bs4 import BeautifulSoup import requests # 获取网页内容 url = 'https://example.com' response = requests.get(url) # 解析网页 soup = BeautifulSoup(response.text, 'html.parser') # 提取图片链接 img_urls = [img['src'] for img in soup.find_all('img')] # 提取声音文件链接 audio_urls = [audio['src'] for audio in soup.find_all('audio')] ``` 2. **保存数据到本地**：一旦你获取到了数据的链接，你就可以使用 `requests` 库来下载数据，并将其保存到本地。以下是一个简单的代码示例： ```python import os # 下载并保存图片 for img_url in img_urls: img_data = requests.get(img_url).content with open(os.path.join('path_to_save_images', 'image.jpg'), 'wb') as handler: handler.write(img_data) # 下载并保存声音文件 for audio_url in audio_urls: audio_data = requests.get(audio_url).content with open(os.path.join('path_to_save_audios', 'audio.mp3'), 'wb') as handler: handler.write(audio_data) ``` 以上就是使用 Python 抓取和保存非文字类数据的基本方法。希望这个答案对你有所帮助！

2023-12-11





760418

# 中文乱码 plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False # 绘制折线图 plt.plot(x, y1, label=" 北京 ") plt.plot(x, y2, label=" 上海 ") plt.legend(loc="upper left") plt.title(" 北京与上海近 7 天温度情况 ") plt.ylabel(" 温度 ") plt.xlabel(" 日期 ") plt.show()

2023-12-07





760418

2023-12-06





760418

谢谢

2023-12-06





MarkG

获取到图片和声音的地址后，通过requests库读取网络文件，确保大文件逐块下载，然后以二进制写入文件

2023-11-01





Matthew

如果要抓取的数据是图片、声音等非文字类数据，可以将这些非文字类数据下载到本机，通过文件形式进行存储。同时，将文件的绝对存储路径作为一个索引信息，存储在数据库中。

2023-01-27





收起评论