作者回复: 下周开始进入实战
作者回复: 下周开始进入实战
作者回复: 15讲后进入实战,到时都会有相对应的项目代码给到,保持一些耐心哦
作者回复: 这是一种方式,但这需要我们的程序提前提前写好了解析任务的代码,这就是静态的。 还有动态的方式,这种方式可以依靠虚拟机实现,我们后面会实战两种方式
作者回复: https://github.com/dreamerjackson/crawler
作者回复: 我们其实只用存储某一个任务的url就好了,不用每一个中间采集的url都存起来。 只存储任务的url的话,存在etcd是ok的。因为我们本身借助了etcd在我们架构中做了任务的调度。当然,如果我们有其他额外的需求,例如频繁查找、修改,分析。需要额外存在其他数据库中。