手把手带你搭建推荐系统
黄鸿波
谷歌开发者专家,知名游戏公司技术专家
3434 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 36 讲
手把手带你搭建推荐系统
15
15
1.0x
00:00/00:00
登录|注册

06|网络爬虫:爬取一个网站的流程是怎样的?

你好,我是黄鸿波。
在前面的课程中,我们讲解了什么是推荐系统、推荐系统的数据构成与处理,还有数据库相关的知识,这些知识都是我们搭建推荐系统的基础。有了这些基础,下一步我们就可以尝试获取数据了。
那真实数据应该从何而来呢?前面我们讲过,推荐系统的数据来源是多样的,它可以由官方或者用户产生,也可以借助爬虫来获得。而我们这门课程的数据,主要是使用爬虫技术来获得。
这节课,我们就先来看看爬虫是什么,它的工作流程又是怎样的。

什么是爬虫?

爬虫的英文是 Spider,又称网络蜘蛛,它本质上是一种计算机程序。爬虫通过模拟人类的操作,并按照一定的规则自动浏览和检索网页的信息,将人们所需的数据抓取下来,然后对抓取到的数据进行处理,从而提取出有价值的信息。
网络爬虫按照系统结构和实现技术,大致可以分为下面四种类型。
通用网络爬虫(General Purpose Web Crawler)。
聚焦网络爬虫(Focused Web Crawler)。
增量式网络爬虫(Incremental Web Crawler)。
深层网络爬虫(Deep Web Crawler)。
实际的网络爬虫系统通常是由几种爬虫技术相结合来实现的。
最常见的爬虫系统就是各个搜索引擎了。像百度、谷歌等搜索引擎都有自己的爬虫程序,这些爬虫程序每天都在互联网中爬取各种各样的信息,然后将它们按照关键词和网站热度进行排序,最后将排序的结果呈现给用户,这就是我们最后通过引擎搜索出来的内容。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

爬虫技术是当今获取网络数据的重要手段。本文介绍了爬虫的定义、类型和工作流程。爬虫是一种计算机程序,通过模拟人类操作,自动浏览和检索网页信息,从中提取有价值的数据。文章列举了四种网络爬虫类型,并指出实际系统通常会结合多种技术。爬虫需要遵循robots协议,以避免法律风险。在爬取网站时,爬虫需要向链接发起请求,获取响应内容,并对内容进行解析,最终保存所需数据。文章还介绍了HTTP请求方式和响应状态码的重要性。总的来说,本文为读者提供了爬虫技术的基本概念和工作流程,对于想要了解爬虫的读者具有一定的参考价值。文章还提到了解析和保存数据的重要性,以及爬虫的工作流程和课后题目,为读者提供了进一步学习的方向。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《手把手带你搭建推荐系统》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • peter
    请问:爬虫有开源的吗?类似于工具软件那种,拿来就能用,这样就不需要自己开发了。

    作者回复: 同学你好,后面我会把我们的代码放到github上,到时候大家可以去下载。

    2023-04-21归属地:北京
    1
  • 悟尘
    想问一下作者,如果某网站需要账号密码即登录后才能看到信息,该如何爬取数据呢?有没有开源代码?如果有的话,给推荐一下呗。
    2023-12-14归属地:北京
  • 悟尘
    二进制格式的数据如何解析啊?有现成的工具类?
    2023-12-11归属地:北京
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部