06｜网络爬虫：爬取一个网站的流程是怎样的？

黄鸿波

你好，我是黄鸿波。
在前面的课程中，我们讲解了什么是推荐系统、推荐系统的数据构成与处理，还有数据库相关的知识，这些知识都是我们搭建推荐系统的基础。有了这些基础，下一步我们就可以尝试获取数据了。
那真实数据应该从何而来呢？前面我们讲过，推荐系统的数据来源是多样的，它可以由官方或者用户产生，也可以借助爬虫来获得。而我们这门课程的数据，主要是使用爬虫技术来获得。
这节课，我们就先来看看爬虫是什么，它的工作流程又是怎样的。
什么是爬虫？爬虫的英文是 Spider，又称网络蜘蛛，它本质上是一种计算机程序。爬虫通过模拟人类的操作，并按照一定的规则自动浏览和检索网页的信息，将人们所需的数据抓取下来，然后对抓取到的数据进行处理，从而提取出有价值的信息。
网络爬虫按照系统结构和实现技术，大致可以分为下面四种类型。
通用网络爬虫（General Purpose Web Crawler）。
聚焦网络爬虫（Focused Web Crawler）。
增量式网络爬虫（Incremental Web Crawler）。
深层网络爬虫（Deep Web Crawler）。
实际的网络爬虫系统通常是由几种爬虫技术相结合来实现的。
最常见的爬虫系统就是各个搜索引擎了。像百度、谷歌等搜索引擎都有自己的爬虫程序，这些爬虫程序每天都在互联网中爬取各种各样的信息，然后将它们按照关键词和网站热度进行排序，最后将排序的结果呈现给用户，这就是我们最后通过引擎搜索出来的内容。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

爬虫技术是当今获取网络数据的重要手段。本文介绍了爬虫的定义、类型和工作流程。爬虫是一种计算机程序，通过模拟人类操作，自动浏览和检索网页信息，从中提取有价值的数据。文章列举了四种网络爬虫类型，并指出实际系统通常会结合多种技术。爬虫需要遵循robots协议，以避免法律风险。在爬取网站时，爬虫需要向链接发起请求，获取响应内容，并对内容进行解析，最终保存所需数据。文章还介绍了HTTP请求方式和响应状态码的重要性。总的来说，本文为读者提供了爬虫技术的基本概念和工作流程，对于想要了解爬虫的读者具有一定的参考价值。文章还提到了解析和保存数据的重要性，以及爬虫的工作流程和课后题目，为读者提供了进一步学习的方向。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《手把手带你搭建推荐系统》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

peter
请问：爬虫有开源的吗？类似于工具软件那种，拿来就能用，这样就不需要自己开发了。
作者回复: 同学你好，后面我会把我们的代码放到github上，到时候大家可以去下载。
2023-04-21归属地：北京

1
悟尘
想问一下作者，如果某网站需要账号密码即登录后才能看到信息，该如何爬取数据呢？有没有开源代码？如果有的话，给推荐一下呗。
2023-12-14归属地：北京


悟尘
二进制格式的数据如何解析啊？有现成的工具类？
2023-12-11归属地：北京



收起评论