数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17221 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

18丨决策树(中):CART,一棵是回归树,另一棵是分类树

陈旸 2019-01-23
上节课我们讲了决策树,基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。今天我来带你学习 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。
那么你首先需要了解的是,什么是分类树,什么是回归树呢?
我用下面的训练数据举个例子,你能看到不同职业的人,他们的年龄不同,学习时间也不同。如果我构造了一棵决策树,想要基于数据判断这个人的职业身份,这个就属于分类树,因为是从几个分类中来做选择。如果是给定了数据,想要预测这个人的年龄,那就属于回归树。
分类树可以处理离散数据,也就是数据种类有限的数据,它输出的是样本的类别,而回归树可以对连续型的数值进行预测,也就是数据在某个区间内都有取值的可能,它输出的是一个数值。

CART 分类树的工作流程

通过上一讲,我们知道决策树的核心就是寻找纯净的划分,因此引入了纯度的概念。在属性选择上,我们是通过统计“不纯度”来做判断的,ID3 是基于信息增益做判断,C4.5 在 ID3 的基础上做了改进,提出了信息增益率的概念。实际上 CART 分类树与 C4.5 算法类似,只是属性选择的指标采用的是基尼系数。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(35)

  • rainman 置顶
    对于 CART 回归树的可视化,可以先在电脑上安装 graphviz;然后 pip install graphviz,这是安装python的库,需要依赖前面安装的 graphviz。可视化代码如下:

    ----
    from sklearn.tree import export_graphviz
    import graphviz

    # 参数是回归树模型名称,不输出文件。
    dot_data = export_graphviz(dtr, out_file=None)
    graph = graphviz.Source(dot_data)
    # render 方法会在同级目录下生成 Boston PDF文件,内容就是回归树。
    graph.render('Boston')
    ----

    具体内容可以去 sklearn(https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html)
    和 graphviz(https://graphviz.readthedocs.io/en/stable/) 看看。

    编辑回复: 关于决策树可视化,大家可以看看这个。

    2019-02-15
    11
  • cart分类树的决策树那副图看不懂。
    2019-01-31
    2
    16
  • 王彬成
    1、ID3,C4.5,以及 CART 分类树在做节点划分时的区别吗?
    ID3是基于信息增益来判断,信息增益最大的,选取作为根节点。
    C4.5采用信息增益率来判断,信息增益率最大的,选取作为根节点。
    CART分类树采用基尼系数最小的属性作为属性划分
    2、sklearn 中有个手写数字数据集,调用的方法是 load_digits(),你能否创建一个 CART 分类树,对手写数字数据集做分类?另外选取一部分测试集,统计下分类树的准确率?
    # 手写数据集load_digits()建立CART分类树
    # encoding= utf-8
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.datasets import load_digits

    #准备数据
    digits=load_digits()
    #获取特征集和分类标识
    features=digits.data
    labels=digits.target
    #随机抽取33%的数据作为测试集,其余为训练集
    train_features,test_features,train_labels,test_labels=train_test_split(features,labels,test_size=0.33,random_state=0)
    #创建cart分类树
    clf=DecisionTreeClassifier(criterion='gini')
    #拟合构造cart分类树
    clf=clf.fit(train_features,train_labels)
    # 用cart分类树做预测
    test_predict=clf.predict(test_features)
    #预测结果与测试集结果做比对
    score=accuracy_score(test_labels,test_predict)
    print("CART 分类树准确率 %.4lf"%score)
    -----------
    运算结果:CART 分类树准确率 0.8603
    2019-02-17
    9
  • jake

    首先想问一个问题 就是在讲到基尼系数那里 有一个图那里的例子 什么D: 9个打篮球 3个不打篮球那里
    那里的D的基尼系数用到了子节点归一化基尼系数之和这个方法求 请问D的基尼系数不能直接用 上面那个公式 也就是"1 - [p(ck|t)]^2"那个公式计算吗 我用这个公式计算出D的基尼系数为 1 - (9/12 * 9/12 + 3/12 * 3/12) = 6/16。 我也想问一下上面那个同学提的这个问题

    编辑回复: 单纯看节点D的基尼系数,采用公式:1 - [p(ck|t)]^2,也就是Gini(D)=1 - (9/12 * 9/12 + 3/12 * 3/12) = 0.375
    同时,文章也计算了关于节点D,在属性A划分下的基尼系数的情况:
    Gini(D, A)=|D1|/|D|*Gini(D1) + |D2|/|D|*Gini(D2)=6/12*0+6/12*0.5=0.25
    所以Gini(D)=0.375, Gini(D, A)=0.25

    2019-02-24
    4
  • 梁林松
    老师 那个打篮球的例子里 D1/D和D2/D为什么是6/9和2/9呢?如果是子节点占父节点的比例不是应该是各1/2吗?
    2019-01-23
    4
  • rm
    老师你好,决策的数是怎么生成的?
    2019-03-01
    1
    3
  • 程序员小熊猫
    ID3:以信息增益作为判断标准,计算每个特征的信息增益,选取信息增益最大的特征,但是容易选取到取值较多的特征
    C4.5:以信息增益比作为判断标准,计算每个特征的信息增益比,选取信息增益比最大的特征
    CART:分类树以基尼系数为标准,选取基尼系数小的的特征
                回归树以均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征

    练习题:
    from sklearn import datasets
    from sklearn.model_selection import train_test_split
    from sklearn import tree
    from sklearn.metrics import accuracy_score
    import graphviz

    # 准备手写数字数据集
    digits = datasets.load_digits()
    # 获取特征和标识
    features = digits.data
    labels = digits.target
    # 选取数据集的33%为测试集,其余为训练集
    train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33)
    # 创建CART分类树
    clf = tree.DecisionTreeClassifier()
    # 拟合构造CART分类树
    clf.fit(train_features, train_labels)
    # 预测测试集结果
    test_predict = clf.predict(test_features)
    # 测试集结果评价
    print('CART分类树准确率:', accuracy_score(test_labels, test_predict))
    # 画决策树
    dot_data = tree.export_graphviz(clf, out_file=None)
    graph = graphviz.Source(dot_data)
    graph.render('CART//CART_practice_digits')

    CART分类树准确率: 0.8636363636363636
    2019-02-15
    3
  • Lee
    # encoding=utf-8
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.datasets import load_digits

    # 准备数据集
    digits=load_digits()
    # 获取特征集和分类标识
    features = digits.data
    labels = digits.target
    # 随机抽取 33% 的数据作为测试集,其余为训练集
    train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)
    # 创建 CART 分类树
    clf = DecisionTreeClassifier(criterion='gini')
    # 拟合构造 CART 分类树
    clf = clf.fit(train_features, train_labels)
    # 用 CART 分类树做预测
    test_predict = clf.predict(test_features)
    # 预测结果与测试集结果作比对
    score = accuracy_score(test_labels, test_predict)
    print("CART 分类树准确率 %.4lf" % score)

    CART 分类树准确率 0.8620
    2019-01-24
    2
  • twelve
    1.导入数据

    from sklearn.datasets import load_digits
    digits = load_digits()
    feature = digits.data
    labels = digits.target
    测试集和训练集的构建
    from sklearn.model_selection import train_test_split
    rain_features,test_features,train_labels,test_labels = train_test_split(feature,labels,test_size=0.3)
    拟合
    from sklearn.tree import DecisionTreeClassifier
    clf = DecisionTreeClassifier(criterion='gini')
    clf = clf.fit(train_features,train_labels)
    预测
    test_predict = clf.predict(test_features)
    准确性分析
    from sklearn.metrics import accuracy_score
    score = accuracy_score(test_labels,test_predict)
    print(score)
    0.8685185185185185
    2019-10-01
    1
  • 许宇宝
    老师,看了两遍还是不明白分类的这个决策树是依据什么画出来的?
    2019-07-18
    1
  • 羊小看
    1、为什么CRAT的基尼系数比C4.5的信息增益率好呢?既然sklearn库默认用的基尼系数,应该是这个好一些吧?
    2、from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    #from sklearn.datasets import load_iris
    from sklearn.datasets import load_digits

    # 准备数据集
    #iris=load_iris()
    digits=load_digits()
    # 获取特征集和分类标识
    #features = iris.data
    #labels = iris.target
    features = digits.data
    labels = digits.target
    # 随机抽取 33% 的数据作为测试集,其余为训练集
    train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)
    # 创建 CART 分类树
    clf = DecisionTreeClassifier(criterion='gini')
    # 拟合构造 CART 分类树
    clf = clf.fit(train_features, train_labels)
    # 用 CART 分类树做预测
    test_predict = clf.predict(test_features)
    # 预测结果与测试集结果作比对
    score = accuracy_score(test_labels, test_predict)
    print("CART 分类树准确率 %.4lf" % score)

    CART 分类树准确率 0.8636
    2019-05-10
    1
  • xfoolin
    ID3 是通过信息增益,选取信息增益最大的特征;C4.5 是通过信息增益率,选取,CART 是通过基尼系数,选取基尼系数最小的特征。


    from sklearn.model_selection import train_test_split#训练集和测试集
    from sklearn.metrics import mean_squared_error#二乘偏差均值
    from sklearn.metrics import mean_absolute_error#绝对值偏差均值
    from sklearn.datasets import load_digits#引入 digits 数据集
    from sklearn.metrics import accuracy_score#测试结果的准确性
    from sklearn import tree
    import graphviz
    #准备数据集
    digits = load_digits()
    #获取数据集的特征集和分类标识
    features = digits.data
    labels = digits.target
    #随机抽取 33% 的数据作为测试集,其余为训练集
    train_features,test_features,train_labels,test_labels = \
    train_test_split(features,labels,test_size = 0.33,random_state = 0)
    #创建 CART 分类树
    clf = tree.DecisionTreeClassifier(criterion = 'gini')
    #拟合构造分类树
    clf = clf.fit(train_features,train_labels)
    #用 CART 分类树做预测
    test_predict = clf.predict(test_features)
    #预测结果与测试集作对比
    score = accuracy_score(test_labels,test_predict)
    #输出准确率
    print('准确率 %.4f'%score)
    dot_data = tree.export_graphviz(clf,out_file = None)
    graph = graphviz.Source(dot_data)
    #输出分类树图示
    graph.view()
    2019-02-19
    1
  • Chino
    首先想问一个问题 就是在讲到基尼系数那里 有一个图那里的例子 什么D: 9个打篮球 3个不打篮球那里
    那里的D的基尼系数用到了子节点归一化基尼系数之和这个方法求 请问D的基尼系数不能直接用 上面那个公式 也就是"1 - [p(ck|t)]^2"那个公式计算吗 我用这个公式计算出D的基尼系数为 1 - (9/12 * 9/12 + 3/12 * 3/12) = 6/16

    # ID3,C4.5,CART在做节点划分的区别
    # 我认为是三者的共同之处就是得出每个类别的某个属性值 然后根据这个属性值
    # 来选取哪个类型当节点 因此不同之处就是这个属性值.
    # ID3 根据 信息增益 判断 哪个节点的信息增益最大就当节点
    # C4.5 根据 信息增益率 判断 跟ID3相似
    # CART分类树 根据 基尼系数 判断 越小代表越稳定

    from sklearn.datasets import load_digits
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.metrics import accuracy_score
    from sklearn.model_selection import train_test_split


    digit = load_digits()

    # 把数据集中的数据和结果拿出来
    features = digit.data
    target = digit.target

    # 把数据集中的数据分33%当作测试数据 其他用来训练
    train_features,test_features,train_target,test_target = train_test_split(features,target,test_size=0.33)

    # 定义CART分类树
    clf = DecisionTreeClassifier()

    # 把训练数据弄到分类数中 构造树
    clf = clf.fit(train_features,train_target)

    # 把测试数据放进树中得出预测结果
    predict_target = clf.predict(test_features)

    # 对比预测出来的数据和实际结果
    score = accuracy_score(predict_target,test_target)

    print(score)

    编辑回复: 单纯看节点D的基尼系数,采用公式:1 - [p(ck|t)]^2,也就是Gini(D)=1 - (9/12 * 9/12 + 3/12 * 3/12) = 0.375
    同时,文章也计算了关于节点D,在属性A划分下的基尼系数的情况:
    Gini(D, A)=|D1|/|D|*Gini(D1) + |D2|/|D|*Gini(D2)=6/12*0+6/12*0.5=0.25
    所以Gini(D)=0.375, Gini(D, A)=0.25
    手写数字数据集,采用CART分类这个正确

    2019-02-01
    1
  • 雨先生的晴天
    scikit learn package 确实非常好用,很简洁。推荐大家也去官网看一看,请问一下怎样可以把decision tree 可视化呀?

    编辑回复: 评论中有人对决策树可视化做了解释,你可以看下。采用的是graphviz这个库,你需要先安装,然后使用。

    2019-01-27
    1
  • Mi compaero de armas
    老师您好,请问采用CART算法时,如果离散型属性的值不止两种还能使用CART算法吗
    2019-11-19
  • Ronnyz
    第二问
    ```
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.datasets import load_digits

    digits = load_digits()

    # print(digits)

    features=digits.data
    labels = digits.target

    train_features,test_features,train_labels,test_labels=train_test_split(features,labels,test_size =0.33,random_state=0)

    clf = DecisionTreeClassifier(criterion='gini')
    clf=clf.fit(train_features,train_labels)

    predict_labels=clf.predict(test_features)

    print('分类准确度:',accuracy_score(test_labels,predict_labels))
    ```
    分类准确度: 0.8619528619528619
    2019-11-11
  • 微澜gao
    请问cart决策树剪枝CCP方法中为什么希望剪枝前后误差最小

    2019-09-16
  • 建强
    老师,能否讲一下这些决策树构造后的实际应用的例子,看了示例代码之后,感觉只是对构造后结果进行评价,那怎么运用构造出来的决策树对实际应用对象进行分类呢
    2019-08-25
  • 建强
    思考题1:
    ID3以节点的信息增益的大小为标准进行结点划分;
    C4.5以节点的信息增益率为标准进行结点划分;
    CART算法,构造分类树时,根据基尼系数划分节点;回归树根据偏差划分节点。

    思考题2:
    #CART分类决策树算法实例:手写数字数据集

    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.datasets import load_digits

    # 准备数据集
    digits=load_digits()

    # 获取特征集和分类标识
    features = digits.data
    labels = digits.target

    # 随机抽取 33% 的数据作为测试集,其余为训练集
    train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)

    # 创建 CART 分类树
    clf = DecisionTreeClassifier(criterion='gini')

    # 拟合构造 CART 分类树
    clf = clf.fit(train_features, train_labels)

    # 用 CART 分类树做预测
    test_predict = clf.predict(test_features)

    # 预测结果与测试集结果作比对
    score = accuracy_score(test_labels, test_predict)
    print("CART 分类树准确率 %.4lf" % score)
    #输出结果
    CART 分类树准确率 0.8670
    2019-08-25
  • 内存爆了
    思考题
    1、ID3和C4.5,以及CART分类树在做结点划分的时候的区别:
    ID3和C4.5在做结点划分的时候,构建成的数可以是多叉树或者二叉树,但是CART算法只能构成二叉树,对于取多个值的属性变量,需要将多个类别合并成两个类别,形成超类,然后计算两个“超类”下样本测试输出取得的差异性。
    2、构建分类树
    # encoding=utf-8
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.datasets import load_digits

    # 准备数据集
    digits = load_digits()
    # 获取特征集和分类标识
    features = digits.data
    labels = digits.target
    # 随机抽取 33% 的数据作为测试集,其余为训练集
    train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.33, random_state=0)
    # 创建CART 分类树
    clf = DecisionTreeClassifier(criterion='gini')
    # 拟合构造CART分类树
    clf = clf.fit(train_features, train_labels)
    # 用CART 分类树做预测
    test_predict = clf.predict(test_features)
    # 预测结果与测试结果做对比
    score = accuracy_score(test_labels, test_predict)
    print("CART 分类树准确率 %.4lf" % score)

    # 结果:CART 分类树准确率 0.8687
    2019-07-24
收起评论
35
返回
顶部