22|PageRank:谷歌是如何计算网页排名的
黄清昊
该思维导图由 AI 生成,仅供参考
你好,我是微扰君。
上一讲我们学习了谷歌三架马车之一 MapReduce。建立在 Google File System 的基础上,MapReduce 很好地解决了谷歌当时的大规模分布式计算问题,让业务工程师不再需要处理和分布式计算相关的容错、数据分发、计算调度等复杂的技术细节,而把精力放在业务问题本身。
不过谷歌作为一家搜索引擎公司,搜索自然是谷歌重中之重的核心业务。今天我们就来学习谷歌三架马车之二——PageRank 算法。
早期的搜索引擎一般只是基于关键字进行匹配,按照匹配情况,把爬虫爬到的全部内容,再基于时间顺序进行排列,如果对搜索质量的把控高一点,可能最多也就是做到基于关键词出现频次的排序。但是,这样搜索出来的质量往往不是很让我们满意,而且容易出现站点作弊的情况,比如通过大量在网页内容中填充某些关键词,以提高自己的网页排名。
为了让用户获得更好的搜索体验从而打败竞争对手,谷歌是如何设计自己计算网页排名的算法的呢?
这就要提到 PageRank 算法,由谷歌创始人也是斯坦福大学的博士生 Larry Page 提出的,算法既以 Larry Page 本人名字来命名,同时也包含了网页排名的意义。 PageRank 算法不止可以让用户搜索到自己关心的内容,也往往能让质量更高的网页得以排到更前的位置,同时它也是一个典型的 MapReduce 的应用场景。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
PageRank算法是谷歌创始人Larry Page提出的一种网页排名算法,通过考虑网页之间的引用关系和影响力来进行排名。该算法引入了跳转因子$\beta$以平滑整个图上权重的计算,并通过迭代计算得到网页的稳定权重。文章介绍了利用Spark实现PageRank算法的思路和代码示例,强调了MapReduce的高度抽象和泛化能力,以及分布式计算平台在大数据处理中的重要性。通过20轮的迭代,得到了网页的权重计算结果。总结了PageRank算法的应用场景和跳转因子的常见思想,并提出了开放式思考题,探讨了PageRank算法的进一步优化方向。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《业务开发算法 50 讲》,新⼈⾸单¥59
《业务开发算法 50 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 那时刻移除dangling link之后,等新的网页链接图上的计算收敛,我们再把被移除的节点加入图中,进行权重计算,但是不去修改所有已经收敛的权重,这样就可以得到全部网页的权重了。 这些移除dangling link有初始值么? 如果有的话,是不是会造成这些dangling link的值偏大呢?另外对于总体值是否影响?2022-02-101
收起评论