卖桃者说
池建强
极客时间创始人、墨问西东创始人
30376 人已学习
免费领取
课程目录
已完结/共 523 讲
第一季 (135讲)
第二季 (134讲)
第三季 (124讲)
第四季 (90讲)
卖桃者说
15
15
1.0x
00:00/10:29
登录|注册

第380期 | 教练,我想转机器学习工程师该怎么做?

讲述:池建强大小:9.61M时长:10:29
你好,这里是卖桃者说。今天想跟你聊聊怎么才能比较顺利地转型成机器学习工程师。
之前跟很多程序员沟通,发现他们中的很多人,内心都有转向机器学习或人工智能其他领域的想法,毕竟机器学习工程师钱多、门槛高、有需求的公司多,但又内卷得没那么厉害,年龄魔咒似乎也没有那么强烈。当然,也因为门槛高,不少人也就是想想,并没有真正行动起来。
对了,可能有些人会有疑惑,我这里解释一下,机器学习是人工智能的子领域,下面又包涵了深度学习。机器学习在应用层面的可行性已经得到了充分论证,几乎所有的热门领域都有它的身影,比如推荐、风控、语音增强、视频处理等等。
毕竟本质上,机器学习在商业领域中的作用,就是以数据分析为核心,建立数据驱动的自动化决策过程。也因此,互联网企业一旦稍微上点规模,就会对机器学习工程师有需求。
但我们可以看到,目前行业中有一个很有意思的现象。一方面,漫山遍野到处都是人工智能学习的广告,学员也个个大显神通,不是百万年薪都不好意思拿出来秀。另一方面,当这些学员真正来应聘机器学习工程师的时候,会发现他们中的大部分是难以出活的。从根本上来说,这意味着人傻钱多的人工智能红利期已经一去不复返了。
抛开各种社会和经济因素不谈,只谈算法的实现,如果目的只是为了跑通一个算法应用,那么几乎只要 git clone 就可以了。比如说 NLP 领域的、无数人写在简历中用来秀自己技术优越性的 BERT,要实现一个简单分类就只要几行代码就可以了。而企业主必然是不会为此付高薪的。
这是很现实的问题,很多人认为只要将常用库的 API 和常见模型的理论推导背得滚瓜烂熟,就具备了进入到数据挖掘行业的能力。但在这个跑个 baseline 只要 git clone 的时代,成为行走的使用手册对于提升自己核心竞争力是没有帮助的。只有通过实践把经验变为生产力才是最关键的。
然而,对于想转型的初学者来说,有效实践恰恰是让他们为难的地方。这里面最大的一个问题就是,以提升模型预测准确性为基础的建模方法,相比于依靠理论,不论是数学理论、经济理论或是什么理论为基础的建模,实际上历史更短。此外,推动目前数据挖掘建模方法论的,很大程度是实践结果而不是理论结果,这使得整体上关于实证建模的经验十分分散。
说到关于数据挖掘的材料,市面上你能找到的材料会呈现一个两边倒的状态。首先,市面上充斥着大量的入门级的材料。很不幸的是,这些材料很多都只呈现到最基础的 demo 跑通的状态,甚至很多材料还充斥了一些明显的低级错误。读这种材料的唯一好处可能是给人带来一种安定感,尤其是当所谓的业界大牛跟你说某某某无非就是某某某的时候。但是这种安定感配套的浅尝辄止实际上会只会让你遇到新的问题的时候更慌无所措。
另一方面,虽然数据挖掘相关领域论文很多,但是这些论文要读懂则至少要对相应领域有相当了解,并且由于论文本身的包装问题,初学者比较难以判断论文中哪些方法到底是有用的还是仅仅是个漂亮的故事。
这些都是非常现实的问题,也是我们转向机器学习工程师的门槛所在,那极客时间一向是想你所想,急你所急,所以,我们特地邀请到王然老师,和他一起打造了“机器学习训练营”这个项目,帮助你解决这些问题,成为一名能落地的实干型机器学习工程师。
王然老师目前是众微科技 AI Lab 负责人,他本科毕业于北京大学,研究生在阿姆斯特丹大学攻读计量经济学和数学的双学位。之前曾担任百分点认知智能实验室技术负责人,还曾在极客时间开设《NLP 高手课》,广受学生好评,是难得的能讲好课的实战派一线工程师。
实干型机器学习工程师,是我们和王然老师一起定下的目标。毕竟除去极少数的头部企业,大部分企业招人只有一个目的,那就是干活,而真正能干活的人其实是不好招的。
那什么样的人才是真正能干活的人呢?下面是王然老师定义的三大核心能力:
第一个核心能力我称之为编程实现的能力。这个能力的核心在于给定一个算法的方案,如何能够有效地将之实现。有效一般可以从两个角度考虑。一方面,有效意味着实现的效率,这里的重点不在于是否能将常用软件的 API 背得滚瓜烂熟,而是对于非标准的一些操作,如何搜寻信息找寻解决方案、实现并验证解决方案并且改进。另一方面,这意味着当实现出来的算法运行效率不能够满足需求时候,工程师有办法去提升 hotspot 的性能。
 
第二个核心能力我称之为数学能力。之所以提及数学能力,核心就是机器学习的算法诠释有千千万万,但其数学形式写出来却是确定的。了解一种新的算法最快的方法就是阅读其数学形式。而如果现成算法不能达到要求而要进行算法创新,不通过数学也是不可能的。
 
最后一个,和数据科学最相关的能力,我称之为一套成熟的建模方法论。具体而言,这里讲的就是当最基础的模型不能满足需求的时候,到底应该怎么做。起码不能直接束手无策两眼一抹黑,并且解决方案不能有低级错误。
因此,我们的课程设计思路也是围绕着这 3 个核心能力来。虽然对于一个短短的 3 个月的训练营来说,想要完完全全覆盖以上三种核心能力的点点面面并不容易,但是我们仍然希望通过讲解一些核心的、尤其是市面上材料不太容易找到的内容,帮助学员克服进阶的瓶颈。
整体而言,针对编程能力,我们除去讲解常用的库的使用,还会重点讲解 debug 和算法调优的过程。针对数学能力,我们除去讲解常见的机器学习模型算法,更重要的是通过讲解极大似然估计的推导和实现,帮助学员走完从数学到算法实现的整个流程。而对于最核心的数据挖掘的能力,我们会通过一个实际的例子,除去讲解在竞赛当中常用的一些 trick 以外,更重要的通过 learning by doing 的方式,通过分析学员的实际分析过程提出有针对性的建议。
这门课程中,我们设计的核心在于通过两个贯穿整个课程的实际例子来展示整个数据挖掘流水线的过程。这两个例子侧重点不同。
第一个例子是手写应用于额度测算的 Tobit 模型。之所以设计这个例子,主要想展示的就是当问题并非为已有算法可以解决的时候,如何把数学公式转换为实现策略,如何验证结果,如何 debug 以及如何提升实现效率。
第二个例子是根据 Kaggle 的 Lending Club 数据集进行违约的预测。在这里,我们的核心是通过衍生变量构造、算法调参、模型集成等方法,尽可能提升模型的预测精度。在这里,我们分享的除去我认为比较有用的知识以外,更重要的是分享整个案例的分析过程。
更详细的课程信息,你可以点击文末图片查看,我这里就不多赘述了。
好了,说了这么多,如果你想成长为一名真正有竞争力的机器学习工程师,体验高薪的美妙,那这次的课程就是一个非常好的学练结合的机会。
王然老师会用 3 个月的时间,全程直播授课,并带着你动手实践,完成上面提到的两个实战项目。当然其他的还有我们训练营课程惯例的实战作业,助教服务、班主任督学、企业内推等等一系列福利,还在等什么呢?
目前“机器学习训练营”还在早鸟报名阶段,原价 ¥5999 的课程只要 ¥3999,使用卖桃者说的专属口令“MACTALKML”,还能再优惠 ¥350,到手仅需 ¥3649,对自己的投资,任何时候都值得。
口令:MACTALKML
使用规则:满 ¥3999 减 ¥350
有效期:10 月 16 日 00:00 -10 月 25 日 24:00
卖桃者说,下周见。
(编辑:夏天) 
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《卖桃者说》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
47
沉浸
阅读
分享
手机端
快捷键
回顶部