大规模数据处理实战

科莫湖畔的球童

已经整体看完一遍，目前正在重新复读一遍。其中总结摘要，其二加深数据整体的处理流理解

2019-07-30



笑若海

感谢老师。推荐的google论文都看了两遍，顺带也看了一些其他论文，回头再来看课程，感觉好理解多了。关于物联网、人工智能的展望，也很有启发性～再次感谢。

2019-08-06



陈凯枫

感谢蔡老师的辛勤付出！通过专栏学习，开拓了视野，提高了见识。

2019-07-30

2

梅亮宏@创造力

老师是有信仰的一个人，任何愿意分享技术都是很有魅力的。你女朋友应该感到自豪：）谢谢三个月的陪伴！Good luck in your new journey! Hopefully see you again on Geek’s Time! Cheers!

2019-07-30

13

kenan

老师，诚挚之眼，感人肺腑，我们下一门课程相见。

2019-07-29

2

Geeker

例子很好！

作者回复：谢谢

2020-03-07

1

JustDoDT

终于跑通了，不容易啊，刚开始数据集没下载正确。有空值，老师给的数据集较干净。别的数据集，要记得去除空值。下面是实践代码jupyter https://github.com/LearningChanging/spark-exercise/blob/master/19/CaliforniaHousing.ipynb

作者回复：给你点赞👍加油

2019-09-02

13

JustDoDT

实践成功 demo.txt: I hava a dog He has a Dog RDD写法： [('I', 1), ('hava', 1), ('a', 2), ('dog', 1), ('He', 1), ('has', 1), ('Dog', 1)] [('a', 2), ('I', 1), ('hava', 1), ('dog', 1), ('He', 1), ('has', 1), ('Dog', 1)] DF写法： [Row(word='dog', count=1), Row(word='He', count=1), Row(word='Dog', count=1), Row(word='I', count=1), Row(word='a', count=2), Row(word='hava', count=1), Row(word='has', count=1)] [Row(word='a', count=2), Row(word='I', count=1), Row(word='Dog', count=1), Row(word='hava', count=1), Row(word='dog', count=1), Row(word='has', count=1), Row(word='He', count=1)] 从启动到出结果，DF写法速度要比rdd慢。

作者回复：👍🏻

2019-09-02



人唯优

今天开始走第二遍阅读

作者回复：加油。

2019-07-29



滩涂曳尾

学习心得：消息队列有2个重点： 1. 解耦合——vs. 观察者模式实现相同效果，而且每次都要和观察者协商消息格式） 2. 高伸缩性——消息队列可以作为一个“独立”的“分布式存储”，专业团队维护。 apache kafka: Producer -> topics -> Consumer 发布/订阅模式限制： 1. 发送之后，无法做到接收方实时响应； 2. 只能满足“最终一致性，不能满足强一致性” （知乎有篇文章很好：https://zhuanlan.zhihu.com/p/67949045）

作者回复：谢谢你的留言和分享！总结得不错啊！

2019-06-29



讲师

蔡元楠

硅谷资深工程师

蔡元楠，硅谷资深工程师，工作领域为 AI Healthcare（人工智能的健康医疗应用），领导并开发超大规模数据驱动的全新 AI 应用与商业模式。他分别于哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位，并曾于哈佛医学院执行官项目学习。