极客时间-轻松学习，高效学习-极客邦

ken

2019-01-25

经典入门案例，浅入但没有提供完整的代码和说明，缺少拓展，对包调用的逻辑方法也不够完整。
是一次手把手练习的实操过程，但有点不上不下的，完全没python基础的可能连sklearn也不知道，有点工程基础的，又没有理论拓展说明，未免鸡肋。

当然，本人可能严格了。

 4

 91
每天晒白牙

2019-01-30

# 依赖包从 cmd中 pip install即可
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn import tree
import graphviz
# 数据加载
train_data = pd.read_csv('D:/workspace/study/python/Titanic_Data/train.csv')
test_data = pd.read_csv('D:/workspace/study/python/Titanic_Data/test.csv')
# 数据探索
print(train_data.info())
print('-'*30)
print(train_data.describe())
print('-'*30)
print(train_data.describe(include=['O']))
print('-'*30)
print(train_data.head())
print('-'*30)
print(train_data.tail())
# 数据清洗
# 使用平均年龄来填充年龄中的 nan 值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(), inplace=True)
# 使用票价的均值填充票价中的 nan 值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(), inplace=True)
# 使用登录最多的港口来填充登录港口的 nan 值
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S', inplace=True)
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
dvec = DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
print(dvec.feature_names_)
# 决策树模型
# 构造 ID3 决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 决策树训练
clf.fit(train_features, train_labels)
# 模型预测 & 评估
test_features=dvec.transform(test_features.to_dict(orient='record'))
# 决策树预测
pred_labels = clf.predict(test_features)
# 决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score 准确率为 %.4lf' % acc_decision_tree)
# K 折交叉验证统计决策树准确率
print(u'cross_val_score 准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
# 决策树可视化
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.view()

展开

作者回复: Good Job



 16
程序员小熊猫

2019-02-18

fit 从一个训练集中学习模型参数，其中就包括了归一化时用到的均值，标准偏差等，可以理解为一个训练过程。
transform: 在fit的基础上，对数据进行标准化，降维，归一化等数据转换操作
fit_transform: 将模型训练和转化合并到一起，训练样本先做fit，得到mean，standard deviation，然后将这些参数用于transform（归一化训练数据），使得到的训练数据是归一化的，而测试数据只需要在原先fit得到的mean，std上来做归一化就行了，所以用transform就行了。

编辑回复: 总结的很好。需要注意的是，transform和fit_transform虽然结果相同，但是不能互换。因为fit_transform只是 fit+transform两个步骤合并的简写。而各种分类算法都需要先fit，然后再进行transform。所以如果把fit_transform替换为transform可能会报错。

 1

 14
不做键盘侠

2019-02-05

Fare似乎没有缺失值？

编辑回复: 训练集train_data中Fare没有缺失值，测试集test_data中Fare有缺失值。
通过print(test_data.info()) 可以看到，所以train_data可以补用填充，而test_data需要对缺失值做处理。

 2

 12
一只眼看世界

2019-07-03

还有个问题决策树怎么读？就是每个方框内的数据都代表什么意思呢？

作者回复: 你可以看下输出的决策树的图形，有几个数值你需要了解：
比如类似 X[7]<=0.5 这种就是告诉你这个节点，选择的属性是X[7]，阈值是0.5。
当<=0.5的时候，决策进入到左子树，当>0.5的时候，决策进入到右子树。
entropy实际上代表了信息不纯度，这个数值越大，代表纯度越低。
samples代表的是这个节点的样本数，比如samples=891，就代表这个节点一般有891个样本。然后value这个数组会告诉你这个样本集是如何分布的，比如value=[549,342]，即891个样本，有549个为True，也就是X[7]<=0.5，还有342个样本为False，即这些样本的X[7]>0.5
好了，然后继续上面的分裂过程，直到叶子节点，纯度越来越高，最终归为同一个类别时，纯度最高，entropy=0，此时样本都为同一个类别，也就是按照这条线路可以得到的最终分类结果。
所以你能看到：决策树的使用，就是从根节点开始，然后属性划分，当<=阈值时走左子树，>阈值时走右子树，最终在叶子节点可以得到分类的结果。你指的每个方框里的entropy, samples, vale都是中间的计算结果。
这样解释决策图的使用不知道是否理解，希望对你能有帮助。



 11
MachineLP

2019-01-27

这讲的确需要在精进一些哦，还有后续应该如何通过更好的数据分析进行效果提升也没有体现，感觉这才是关键，并不是简单跑个模型而已。

 1

 9
听妈妈的话

2019-03-20

我想问Fare是怎么看出来有缺失的呀，数目是891呀



 7
上官

2019-01-25

Carbin缺失率分别为 77% 和 78%， Age\Fare有缺失值，这都是在哪儿判断出来的？

编辑回复: 在数据探索的过程中，我们可以通过打印train_data.info()和test_data.info()得出。
你能看到训练集train_data中一共有891行数据，其中Cabin有204个非空数据。同理，测试集test_data中一共有418行数据，其中Cabin有91个非空数据。所以Cabin缺失率分别是77%和78%。同理，你能看到训练集和测试集中的Age字段有缺失值（即空值），测试集中的Fare有缺失值。



 7
Lambert

2019-02-27

# 决策树可视化
from sklearn import tree
import graphviz
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("tree")
graph.view('graph')

展开

作者回复: Good Job



 6
旭霁

2019-03-27

安装 graphviz 工具，并设置好环境变量后，发现还是出错，加了下边两行代码后得以解决。

import os
os.environ["PATH"] += os.pathsep + 'D:/Program Files (x86)/Graphviz2.38/bin/'

在 Windows 中，只需在开头添加这两行，其中 'D：/ Program Files（x86）/Graphviz2.38/bin/' 将替换为 bin 文件所在的地址。

展开

 1

 5
hh

2019-02-17

老师的课太值了，请问老师还有其他课吗，真是干货满满

编辑回复: 多谢支持，后续有和数据相关的课程。
数据分析中的知识点比较多，同时也需要一些基础。所以课程中，有些基础的内容会省略，虽然专栏前面有3节关于python的内容，不过还是需要一定的python基础。另外每篇文章篇幅有限，我会尽量在讲解算法使用的基础上，进行一个完整的项目交付。很多使用细节和体会，还需要你通过日常的学习慢慢进行总结。



 5
听妈妈的话

2019-03-21

https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanic
我个人认为这里的预测方案写的更加详细一点，大家可以参考一下

作者回复: 不错的分享

 2

 4
mickey

2019-01-25

# encoding=utf-8
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
import numpy as np
from sklearn.model_selection import cross_val_score

# 数据加载
train_data = pd.read_csv('./Titanic_Data/train.csv')
test_data = pd.read_csv('./Titanic_Data/test.csv')

# 数据探索
print(train_data.info())
print(train_data.describe())
print(train_data.describe(include=['O']))
print(train_data.head())
print(train_data.tail())

# 数据清洗
# 使用平均年龄来填充年龄中的Nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的Nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)

# 使用登录最多的港口来填充登录港口的nan值
# print(train_data['Embarked'].value_counts())
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)

# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]

dvec = DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))

# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')

# 决策树训练
clf.fit(train_features, train_labels)

# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)

# 使用K折交叉验证统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))

展开

作者回复: Good Job



 3
笔落惊风雨

2019-02-26

我表示真的没看明白来回来看5遍了

编辑回复: 我上传了完整的代码到GitHub上。你可以先自己运行一遍。如果有哪个模块不理解的，你可以加到微信群里，和我单独交流。也可以直接加我微信 cylearn123。



 2
Python

2019-01-25

这两个函数最后得出的结果完全一样，但实际上用法有所不同。如果一定要两个一起用，那肯定是得先
fit_transforms,再transforms，不然就会报错。fit_transforms实际上是fit()和transforms（）这两个函数的集合

编辑回复: 对的，如果大家刚接触sklearn，这个是需要注意的地方之一。



 2
永降不息之雨

2019-06-28

自己写了一遍代码，说怎么一直报错，原来是测试集的fare有缺失啊！

作者回复: 嗯在数据探索阶段可以打印train_data.info()和test_data.info()进行查看



 1
pythonzwd

2019-03-22

咨询一下，就是那个是否生存的结果如何生成出来

作者回复: # 决策树预测
pred_labels = clf.predict(test_features)



 1
柚子

2019-02-19

关于graphviz：我用的是anaconda，通过在anaconda prompt界面输入 conda install python-graphviz 可以直接安装graphviz

作者回复: 可以的



 1
JackWu

2019-02-14

import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from pandas import DataFrame
# 数据加载
train_data = pd.read_csv('../data/train.csv')
test_data = pd.read_csv('../data/test.csv')
# 数据清洗
# 使用平均年龄来填充年龄中的Nan值
train_data['Age'].fillna(train_data['Age'].mean(), inplace=True)
test_data['Age'].fillna(test_data['Age'].mean(),inplace=True)
# 使用票价的均值填充票价中的Nan值
train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True)
test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True)
# 使用登录最多的港口来填充登录港口的nan值
# print(train_data['Embarked'].value_counts())
train_data['Embarked'].fillna('S', inplace=True)
test_data['Embarked'].fillna('S',inplace=True)
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
train_features = train_data[features]
train_labels = train_data['Survived']
test_features = test_data[features]
dvec = DictVectorizer(sparse=False)
train_features = dvec.fit_transform(train_features.to_dict(orient='record'))
# 构造ID3决策树
clf = DecisionTreeClassifier(criterion='entropy')
# 决策树训练
clf.fit(train_features, train_labels)
# 得到决策树准确率
acc_decision_tree = round(clf.score(train_features, train_labels), 6)
print(u'score准确率为 %.4lf' % acc_decision_tree)
# 使用K折交叉验证统计决策树准确率
print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))
test_features=dvec.transform(test_features.to_dict(orient='record'))
# 决策树预测
pred_labels = clf.predict(test_features)
print(pred_labels)
features1 = ['PassengerId','Name']
df1=test_data[features1]
df1['label'] = pred_labels
print(df1)
最后面这几行是我添加的，我想把predict的结果跟passenger id关联起来，不知道这样做行不行（主要是顺序问题，如果顺序都是乱的，拼接肯定不行），请老师点评。
score准确率为 0.9820
cross_val_score准确率为 0.7791
[0 0 1 1 1.....]
------
PassengerId Name label
0 892 Kelly, Mr. James 0

展开



 1
szm

2019-01-28

那个问如何将预测的结果写入到test.csv中的? 直接test_data['Survived'] = pred_labels就可以了。



 1