06|网络爬虫:爬取一个网站的流程是怎样的?
黄鸿波
你好,我是黄鸿波。
在前面的课程中,我们讲解了什么是推荐系统、推荐系统的数据构成与处理,还有数据库相关的知识,这些知识都是我们搭建推荐系统的基础。有了这些基础,下一步我们就可以尝试获取数据了。
那真实数据应该从何而来呢?前面我们讲过,推荐系统的数据来源是多样的,它可以由官方或者用户产生,也可以借助爬虫来获得。而我们这门课程的数据,主要是使用爬虫技术来获得。
这节课,我们就先来看看爬虫是什么,它的工作流程又是怎样的。
什么是爬虫?
爬虫的英文是 Spider,又称网络蜘蛛,它本质上是一种计算机程序。爬虫通过模拟人类的操作,并按照一定的规则自动浏览和检索网页的信息,将人们所需的数据抓取下来,然后对抓取到的数据进行处理,从而提取出有价值的信息。
网络爬虫按照系统结构和实现技术,大致可以分为下面四种类型。
通用网络爬虫(General Purpose Web Crawler)。
聚焦网络爬虫(Focused Web Crawler)。
增量式网络爬虫(Incremental Web Crawler)。
深层网络爬虫(Deep Web Crawler)。
实际的网络爬虫系统通常是由几种爬虫技术相结合来实现的。
最常见的爬虫系统就是各个搜索引擎了。像百度、谷歌等搜索引擎都有自己的爬虫程序,这些爬虫程序每天都在互联网中爬取各种各样的信息,然后将它们按照关键词和网站热度进行排序,最后将排序的结果呈现给用户,这就是我们最后通过引擎搜索出来的内容。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
爬虫技术是当今获取网络数据的重要手段。本文介绍了爬虫的定义、类型和工作流程。爬虫是一种计算机程序,通过模拟人类操作,自动浏览和检索网页信息,从中提取有价值的数据。文章列举了四种网络爬虫类型,并指出实际系统通常会结合多种技术。爬虫需要遵循robots协议,以避免法律风险。在爬取网站时,爬虫需要向链接发起请求,获取响应内容,并对内容进行解析,最终保存所需数据。文章还介绍了HTTP请求方式和响应状态码的重要性。总的来说,本文为读者提供了爬虫技术的基本概念和工作流程,对于想要了解爬虫的读者具有一定的参考价值。文章还提到了解析和保存数据的重要性,以及爬虫的工作流程和课后题目,为读者提供了进一步学习的方向。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《手把手带你搭建推荐系统》,新⼈⾸单¥59
《手把手带你搭建推荐系统》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- peter请问:爬虫有开源的吗?类似于工具软件那种,拿来就能用,这样就不需要自己开发了。
作者回复: 同学你好,后面我会把我们的代码放到github上,到时候大家可以去下载。
2023-04-21归属地:北京1 - 悟尘想问一下作者,如果某网站需要账号密码即登录后才能看到信息,该如何爬取数据呢?有没有开源代码?如果有的话,给推荐一下呗。2023-12-14归属地:北京
- 悟尘二进制格式的数据如何解析啊?有现成的工具类?2023-12-11归属地:北京
收起评论