业务开发算法 50 讲
黄清昊
Hashdata 数据库内核工程师,LeetCode 高赞答主,公众号微扰理论作者
23292 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 51 讲
业务开发算法 50 讲
15
15
1.0x
00:00/00:00
登录|注册

22|PageRank:谷歌是如何计算网页排名的

收敛条件判断
迭代计算权重
MapReduce框架
自引用节点处理:添加跳转因子β\beta
无出边节点处理:移除直到无Dangling Links
状态转移矩阵
马氏链平稳状态定理
权重传递:R(u)=vBuR(v)/(Nv)R(u)=\sum_{v\subset B_u}R(v)/(N_v)
网页质量与被引用次数相关
受学术论文影响力因子启发
PageRank算法的进一步优化
广告系统和推荐系统
影响力大V挖掘
搜索引擎排名
利用Spark进行分布式计算
Spider Traps
Dangling Links
网页权重计算
基于引用的排名
创始人Larry Page提出
解决早期搜索引擎的质量问题
谷歌三架马车之一
优化思考
应用
实现
算法问题与解决方案
基本原理
背景
PageRank算法

该思维导图由 AI 生成,仅供参考

你好,我是微扰君。
上一讲我们学习了谷歌三架马车之一 MapReduce。建立在 Google File System 的基础上,MapReduce 很好地解决了谷歌当时的大规模分布式计算问题,让业务工程师不再需要处理和分布式计算相关的容错、数据分发、计算调度等复杂的技术细节,而把精力放在业务问题本身。
不过谷歌作为一家搜索引擎公司,搜索自然是谷歌重中之重的核心业务。今天我们就来学习谷歌三架马车之二——PageRank 算法。
早期的搜索引擎一般只是基于关键字进行匹配,按照匹配情况,把爬虫爬到的全部内容,再基于时间顺序进行排列,如果对搜索质量的把控高一点,可能最多也就是做到基于关键词出现频次的排序。但是,这样搜索出来的质量往往不是很让我们满意,而且容易出现站点作弊的情况,比如通过大量在网页内容中填充某些关键词,以提高自己的网页排名。
为了让用户获得更好的搜索体验从而打败竞争对手,谷歌是如何设计自己计算网页排名的算法的呢?
这就要提到 PageRank 算法,由谷歌创始人也是斯坦福大学的博士生 Larry Page 提出的,算法既以 Larry Page 本人名字来命名,同时也包含了网页排名的意义。 PageRank 算法不止可以让用户搜索到自己关心的内容,也往往能让质量更高的网页得以排到更前的位置,同时它也是一个典型的 MapReduce 的应用场景。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

PageRank算法是谷歌创始人Larry Page提出的一种网页排名算法,通过考虑网页之间的引用关系和影响力来进行排名。该算法引入了跳转因子$\beta$以平滑整个图上权重的计算,并通过迭代计算得到网页的稳定权重。文章介绍了利用Spark实现PageRank算法的思路和代码示例,强调了MapReduce的高度抽象和泛化能力,以及分布式计算平台在大数据处理中的重要性。通过20轮的迭代,得到了网页的权重计算结果。总结了PageRank算法的应用场景和跳转因子的常见思想,并提出了开放式思考题,探讨了PageRank算法的进一步优化方向。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《业务开发算法 50 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 那时刻
    移除dangling link之后,等新的网页链接图上的计算收敛,我们再把被移除的节点加入图中,进行权重计算,但是不去修改所有已经收敛的权重,这样就可以得到全部网页的权重了。 这些移除dangling link有初始值么? 如果有的话,是不是会造成这些dangling link的值偏大呢?另外对于总体值是否影响?
    2022-02-10
    1
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部