数据分析实战 45 讲
即学即用的数据分析入门课
陈旸  清华大学计算机博士
专栏
已完结·共 49 讲
|
12.4w 人已学
|
收藏
Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理。
来自:开篇词 | 你为什么需要数据分析能力?
17 人划过
朴素贝叶斯之所以朴素是因为它假设属性是相互独立的
来自:20丨朴素贝叶斯分类(上):如何让机器判断男女?
5 人划过
提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)
来自:30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
5 人划过
在数据科学领域,Python 有许多非常著名的工具库:比如科学计算工具 NumPy 和 Pandas 库,深度学习工具 Keras 和 TensorFlow,以及机器学习工具 Scikit-learn,使用率都非常高。
来自:03丨Python基础语法:开始你的Python之旅
5 人划过
它包括了行索引和列索引,我们可以将 DataFrame 看成是由相同索引的 Series 组成的字典类型。
来自:05丨Python科学计算:Pandas
5 人划过
Boosting 的含义是提升,它的作用是每一次训练的时候都对上一次的训练进行改进提升,在训练的过程中这 K 个“专家”之间是有依赖性的,当引入第 K 个“专家”(第 K 个分类器)的时候,实际上是对前 K-1 个专家的优化。而 bagging 在做投票选举的时候可以并行计算,也就是 K 个“专家”在做判断的时候是相互独立的,不存在依赖性。
来自:34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
4 人划过
们倾向于找到 TF 和 IDF 取值都高的单词作为区分,即这个单词在一个文档中出现的次数多,同时又很少出现在其他文档中
来自:21丨朴素贝叶斯分类(下):如何对文档进行分类?
3 人划过
Random Forest,英文简写是 RF。它实际上是一个包含多个决策树的分类器,每一个子分类器都是一棵 CART 分类回归树
来自:39丨数据挖掘实战(1):信用卡违约率分析
3 人划过
了解深度学习的同学应该知道 sigmoid 经常用在神经网络的映射中。因此当选用 sigmoid 核函数时,SVM 实现的是多层神经网络。
来自:23丨SVM(下):如何进行乳腺癌检测?
3 人划过
ELT 和 ETL 相比,最大的区别是“重抽取和加载,轻转换”,从而可以用更轻量的方案搭建起一个数据集成平台。使用 ELT 方法,在提取完成之后,数据加载会立即开始。一方面更省时,另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据,为分析师提供了更大的灵活性,使之能更好地支持业务。
来自:12 | 数据集成:这些大号一共20亿粉丝?
3 人划过
*精彩内容为该课程各文章中划线次数最多的内容
免费试读
讲师

陈旸

清华大学计算机博士

陈旸,清华大学计算机博士,前 IBM 中国研究院工程师。IEEE & ACM Member,中国人工智能协会成员,中国计算机协会 CCF 大数据专委。
编辑推荐
讲师的其他课程
SQL 必知必会
陈旸
清华大学计算机博士

50讲 | 73356 人已学习

¥68¥199
包含这门课的学习路径

Python工程师

19门课程 118.0w人学习
看过的人还看了
数据结构与算法之美
王争
前 Google 工程师

81讲 | 283805 人已学习

¥68¥199
编辑训练营
总编室
极客邦科技总编室

9讲 | 8401 人已学习

¥19.9
MySQL 实战 45 讲
林晓斌
网名丁奇,前腾讯云数据库负责人

49讲 | 224935 人已学习

¥68¥199
大规模数据处理实战
蔡元楠
硅谷资深工程师

46讲 | 41612 人已学习

¥59¥99
TensorFlow 快速入门与实战
彭靖田
Google Developers Expert,《深入理解 TensorFlow》作者

67讲 | 31209 人已学习

¥59¥129
左耳听风
陈皓
网名“左耳朵耗子”,资深技术专家

119讲 | 181001 人已学习

¥98¥399