作者回复: 老弟的困惑和迷茫我感同身受,首先我想说,才工作一年,就开始有这样的疑问和困惑,其实你已经打败90%的同龄人了。这个不是安慰你,据我的观察,很少有初入职场就开始考虑职业发展的同学。我自己其实就是个例子,我其实在工作满3年的时候,才忽然意识到,我应该考虑职业发展这回事。所以首先恭喜老弟,你已经想到别人前面去了。 言归正传,咱们聊聊职业发展这回事。首先,我觉得,你需要明确,你的兴趣点,在什么地方。至少有两个方向,供你选择,第一:研究型,第二:应用型。啥叫研究型呢?就比如你做大数据二次研发,这就是研究型,就是把一个工具或者算法做到极值,把技术本身,做到极值。第二个是应用型,意思是,技术就是个工具,学好技术是为了解决业务问题,是为了落地业务应用,所以叫它“应用型”。 明确了兴趣点之后,其实大方向上就清晰了。先不用管这两个方向未来的薪资潜力,两个方向其实在薪资方面,都不弱,都有各自的用武之地。所以,说到底,还是要看你个人的兴趣,到底是哪个方向会让你觉得更有意思,做起来更有激情。这两个方向(当然,或许还有更多的别的方向),没有优劣之分,没有对错之分,纯粹是看你更喜欢哪一个,没有好坏。 OK,大的基调定下来之后。我们再说大数据这个领域的发展。一个,就是刚刚说的研究型,你可以做spark二次开发,为spark社区做贡献,或者是其它任意的大数据产品。另外一个,就是从大数据的几大应用场景着手,做应用开发,比如数仓是个方向、流处理是个方向、图计算是个方向、机器学习,更是个方向。同样,每个方向做好了,都有前景和钱景,并无优劣之分。这些应用场景,还是要看哪个你更有兴趣,更喜欢。其实,每个应用方向,又有“研究型”和“应用型”之分,这个跟刚刚说的,其实是一样的。 第二个问题是“学了就忘”,其实这个大家都一样,纯学理论知识,没有机会应用的话,确实很难记得住,这个不用懊恼,大家都一样的。所以还是要结合工作需要,有的放矢,用“学习、运用、输出”的迭代式学习法,来夯实已有的知识体系。光学不用的话,确实很难。 第三个问题是我自己的经历,我的经历其实挺简单的,就是数据库 -> 数仓 -> 数据分析 -> 机器学习,我是属于“应用型”的,我对技术的应用比较感兴趣,我比较懒,不喜欢做研究,所以选择了这个路线。另外我对数据分析,数据当中蕴含的价值,很感兴趣,这也是为什么会沿着数据分析这条路,慢慢地会入了机器学习的坑,目的就是想挖掘数据中的规律,来指导决策。当然,转行机器学习,也有一些功利心,毕竟机器学习比较火爆,应用场景多,对于个人的职业发展来说,选择的面会更大一些。 大概其就是这些思路,头上一句、腚上一句,不成体系,希望对老弟有所帮助~
作者回复: 感谢老弟的认可与陪伴!恭喜老弟完成课程~ 💯 长尾task的话,一定意味着有倾斜,解决类似的问题,几个思路吧: 1)开启Speculative推断,Spark会自动启动单独的task,来执行同样的任务。这个就是你说的超时重试机制,Spark会推断,哪些tasks属于长尾任务,然后会自动在其他Executors去launch task,计算同样的数据分片,也就是说,在长尾task失败之前,就开始“重试”了 2)AQE自动倾斜,消除倾斜 3)手工加盐,消除倾斜 希望对老弟有所帮助~ 再次感谢!
作者回复: 哈哈,后面会考虑的~
作者回复: 恭喜老弟完成课程~ 持续学习,一起加油~
作者回复: 哈哈,感谢老弟认可~ Flink懂一些,不过确实不像Spark那么熟悉,而且公司这边事情积压成山,实在没精力再写啦。不过感谢老弟的鼓励,等忙完这一阵子,以后找机会再写吧~
作者回复: 感谢兄弟的认可!非常感谢兄弟的美意,不过精力、能力确实有限,Flink恐怕爱莫能助了。后面看看吧,有可能的话,再写一些东西,希望对大家能有所帮助。祝老弟工作顺利、前程似锦、平步青云~ 老弟不妨加我微信,搜索“方块K”或是“rJunior”,后面找机会一起合作~
作者回复: 没问题,可以讲的,老弟可以把不知道答案的题列在留言区,或者是github上面。其实咱们每讲后面都有很多讨论,我理解大部分课后习题大家应该都讨论过,不过也难免有漏网之鱼,老弟可以帮忙整理个“待解答列表”,然后我们一起过一下~
作者回复: 恭喜兄弟完成课程~ 持续学习,与君共勉~