Kaggle机器学习大调查:Python最受欢迎
极客时间编辑部
讲述:杜力大小:1.00M时长:02:11
Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月被谷歌收购,6 月宣布用户数量超过 100 万人。最近,Kaggle 对当前机器学习、数据科学现状进行了深度调查,试图全面了解数据科学和机器学习概况,一窥业内发展趋势。
本次调查收到了超过 16,000 份回复,调查结果向人们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见,其中包含的主要内容有:
平均而言,数据科学家的年龄在 30 岁左右,但是这个数字在不同的国家有所不同,印度的受访者要比澳大利亚的平均年轻 9 岁。
通常来讲,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150k-$200k 和$200k+)的那些人多是有着博士学位。
Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家仍然保持着对 R 语言的忠诚。
最推荐数据科学家新手学习的语言中,63.1% 的受访者推荐了 Python,24% 的人推荐了 R,两者几乎占到了总数的 9 成。
Logistic 回归是数据科学家工作中最为常用的数据科学方法,不过国家安全领域除外,这一领域中,神经网络的使用更为频繁。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。
工作中遇到的主要障碍中,脏数据(dirty data)排在了第一位,也就是说对数据科学家而言,最常见的困扰就是需要对数据进行大量的预处理工程。除此之外,还有很多问题困扰着他们,比如说众多机器学习算法各有各的擅长领域,所以理解它们的性能也会有一些困难。另外,向其他人解释数据科学是什么也是一个困扰。
没有数据,就没有数据科学,知道如何找到干净的开源数据集用于练习和开发项目相当重要,目前 ,Dataset Aggregators 正发展为数据科学社区成员中最频繁使用的工具。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论