06｜免费的宝库: 什么是网络爬虫？

郑建勋

你好，我是郑建勋。
网络爬虫（Web Crawler）又称为网络蜘蛛（Web Spider），是一种自动获取互联网信息的网络机器人（Web Robot）。想想还真是非常形象，蜘蛛在相互连接的网站中，辛苦地从一个网站爬到另一个网站获取信息，又像一个不知疲倦的打工人。
互联网是一个充满了庞大免费数据的地方，但是数据本身并不产生价值，有价值的是从数据中提炼出来的知识与智慧。就像金块一样，这些零散的数据可以被收集、过滤、组合和提炼，生产出极具价值的产品。
凭借正确的知识、技能和一点点创造力，你可以构建一个以爬虫引擎为核心的价值数百亿的商业公司（想想今日头条是如何起家的），这是多么让人兴奋的领域呀。但是网络爬虫合法吗？这一领域需要掌握哪一些知识？基于爬虫可以构建哪些有用的产品？这节课，我们就来深入讨论一下网络爬虫这个领域。
网络爬虫合法吗？近年来，不断出现爬虫相关的犯罪案件，所以很多人对爬虫敬而远之，甚至将它戏称为“面向监狱编程”。
全国首例短视频平台领域网络“爬虫”非法获取用户数据案宣判
爬虫失控导致政府网站奔溃，CTO 和程序员双双被判刑
新三板挂牌公司涉窃取 30 亿条个人信息，非法牟利超千万元
从各种爬虫犯罪的案例中，我们可以分析出触犯法律的主要原因：

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

网络爬虫技术在商业应用中具有巨大潜力，但需要遵守法律规定。本文深入探讨了网络爬虫的技术流程和应用价值。文章介绍了网络爬虫的技术栈，包括数据爬取协议、爬取策略、数据解析、存储、分析与可视化等方面。此外，还介绍了常见的反爬虫措施，如HTTP Header校验、验证码、登录限制、CSS数据伪装和sign参数签名。通过本文，读者可以快速了解网络爬虫技术的概览，以及其在商业应用中的潜在价值。网络爬虫技术涉及众多技术领域，包括前端、网络、存储、算法与数据结构、代理、分布式系统设计和自然语言处理，为读者提供了学习这些领域的契机。文章最后留下了思考题，引发读者思考与交流。网络爬虫技术的合法应用将为商业创新带来新的可能性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《Go 进阶 · 分布式爬虫实战》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(18)

最新
精选

徐海浪
思考题: 有些信息是浏览器运行脚本生成的，不能通过简单的http请求获取。需要通过微型浏览器或者操作浏览器的程序(selenium)来处理。
作者回复: 很正确哈，你也可以看看其他人的回答，反爬机制也是有可能的
2022-10-23归属地：北京

5
心平气和
是不是因为脚本没有模拟浏览器的行为，在脚本里面加上一段话，告诉对方我是游览器就行了。
作者回复: 有一部分原因是这样的，你也可以看看其他人的回答，还有其他的情况，比如反爬机制和未执行js的情况
2022-10-24归属地：北京


木杉
selenium 要讲一下吗?
作者回复: selenium后面还会提到，实际上我们就是希望能够模拟浏览器的运行机制，来实现获取到完整的数据
2022-10-23归属地：北京


安菲尔德
网页数据异步获得？
作者回复: 有一部分是这样的，没有像浏览器一样执行js。你也可以看看其他人的回答，反爬机制也是有可能的
2022-10-23归属地：北京


Geek_crazydaddy
这得具体情况具体分析了，总得方向还是服务端对客户端信息进行验证了，比ua,refer这些
作者回复: 有一部分原因是这样的，还有其他的情况，比如文中提到的其他的反爬机制和未执行js的情况
2022-10-22归属地：北京


拾掇拾掇
是user angent原因？
作者回复: 有一部分原因是这样的，你也可以看看其他人的回答，还有其他的情况，比如文中提到的其他的反爬机制和未和浏览器一样执行js的情况。
2022-10-22归属地：北京


bluesky
感谢大佬对知识的分享,购买课程主要想学习爬虫和go语言,对爬虫和go语言都是小白,分享一下对这个问题的看法:通过浏览器可以获取网页信息,通过程序不能获取,根本原因就是web服务器识别出了程序访问的方式,这可能有很多原因,比如作者提到的一系列的反爬虫机制.比如header信息,登陆限制,ip拦截等等
作者回复: 加油~ 还有一些情况是因为未和浏览器一样执行js
2022-10-22归属地：北京
2

运维夜谈
我们在爬取网页的时候，常常会出现通过浏览器能够正常获取网页信息，但是通过程序访问的方式就无法获取网页信息，你知道可能是什么原因吗？可能是：1、没有添加正确的请求头；2、网页数据可能是动态加载的；3、网页进行了重定向。不知道说得对不对？
作者回复: 很正确，还有一些情况涉及到了多样的反爬机制。
2022-10-22归属地：北京
2

运维夜谈
一般我们从网页上收集的数据是 HMTL 格式的（当然，有时候我们也希望搜集 CSS 文件、js 文件，以及图片、音频、视频等各种形式的文件）这一句的 HMTL 写错了。
作者回复: 感谢，修复中ing
2022-10-22归属地：北京


李一
通过浏览器能够正常获取网页信息，但是通过程序访问的方式就无法获取网页信息： 1. 服务器通过userAgent对访问者工具进行验证。 2.网页有可能通过ajax这种异步加载的机制加载页面数据
2022-10-23归属地：北京

5

收起评论