数据分析实战 45 讲

“

Sharing：最好的学习就是分享。用自己的语言讲出来，是对知识的进一步梳理。”

来自：开篇词 | 你为什么需要数据分析能力？

17 人划过

“

朴素贝叶斯之所以朴素是因为它假设属性是相互独立的”

来自：20丨朴素贝叶斯分类（上）：如何让机器判断男女？

5 人划过

“

提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)”

来自：30丨关联规则挖掘（上）：如何用Apriori发现用户购物规则？

5 人划过

“

在数据科学领域，Python 有许多非常著名的工具库：比如科学计算工具 NumPy 和 Pandas 库，深度学习工具 Keras 和 TensorFlow，以及机器学习工具 Scikit-learn，使用率都非常高。”

来自：03丨Python基础语法：开始你的Python之旅

5 人划过

“

它包括了行索引和列索引，我们可以将 DataFrame 看成是由相同索引的 Series 组成的字典类型。”

来自：05丨Python科学计算：Pandas

5 人划过

“

Boosting 的含义是提升，它的作用是每一次训练的时候都对上一次的训练进行改进提升，在训练的过程中这 K 个“专家”之间是有依赖性的，当引入第 K 个“专家”（第 K 个分类器）的时候，实际上是对前 K-1 个专家的优化。而 bagging 在做投票选举的时候可以并行计算，也就是 K 个“专家”在做判断的时候是相互独立的，不存在依赖性。”

来自：34丨AdaBoost（上）：如何使用AdaBoost提升分类器性能？

4 人划过

“

们倾向于找到 TF 和 IDF 取值都高的单词作为区分，即这个单词在一个文档中出现的次数多，同时又很少出现在其他文档中”

来自：21丨朴素贝叶斯分类（下）：如何对文档进行分类？

3 人划过

“

Random Forest，英文简写是 RF。它实际上是一个包含多个决策树的分类器，每一个子分类器都是一棵 CART 分类回归树”

来自：39丨数据挖掘实战（1）：信用卡违约率分析

3 人划过

“

了解深度学习的同学应该知道 sigmoid 经常用在神经网络的映射中。因此当选用 sigmoid 核函数时，SVM 实现的是多层神经网络。”

来自：23丨SVM（下）：如何进行乳腺癌检测？

3 人划过

“

ELT 和 ETL 相比，最大的区别是“重抽取和加载，轻转换”，从而可以用更轻量的方案搭建起一个数据集成平台。使用 ELT 方法，在提取完成之后，数据加载会立即开始。一方面更省时，另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据，为分析师提供了更大的灵活性，使之能更好地支持业务。”

来自：12 | 数据集成：这些大号一共20亿粉丝？

3 人划过

*精彩内容为该课程各文章中划线次数最多的内容

免费试读

讲师

陈旸

清华大学计算机博士

陈旸，清华大学计算机博士，前 IBM 中国研究院工程师。IEEE & ACM Member，中国人工智能协会成员，中国计算机协会 CCF 大数据专委。

陈旸

清华大学计算机博士

Python工程师