作者回复: 很赞啊,感觉你在不太了解大数据计算框架的前提下推导出大数据计算的核心思路方法。 PageRank的编程实现采用MapReduce之类的大数据计算框架,编程方法可采用图计算或者矩阵计算。归根结底都是如何将数据分片后计算。
作者回复: 非常赞
作者回复: 1 1个字节才256,超过这个长度的URL应该很常见吧,浏览器对URL长度的限制一般在2000以上 2 这个问题是不跟其他专栏串了,我们还没有期中评测呢~~ 不急,会有的~~~ 3 所有单词 4 根据过往用户搜索进行前缀匹配,服务器实现 5 也用pagerank 6 AI这个词太含糊了,pagerank也算是一种AI,Q4的提示也是一种AI,搜索广告推荐也是AI,AI无处不在
作者回复: 搜索引擎索引有全量索引和增量索引两种。新闻类网页采用增量索引,爬虫专门爬新闻类网页,爬取频率高,网页数量少,构建索引速度快。其实就是你说的临时的意思,不过这个临时是永不停歇的临时。
作者回复: 两个链表指针不是同时移动啊,移动数据小的那个链表指针
作者回复: 跳表是一次写入多次读取的,搜索的时候是读取的过程,写入花费时间不需要考虑。
作者回复: 网页在HDFS存储是为了构建索引和计算PageRank,这个过程是顺序遍历的。 根据docID检索网页内容的场景可以用HBase解决。
作者回复: 对,可以更具体点吗?输入数据的格式是什么样的?如何分段计算?如何汇总?