36丨数据分析算法篇答疑
该思维导图由 AI 生成,仅供参考
17-19 篇:决策树
答疑 1:在探索数据的代码中,print(boston.feature_names) 有什么作用?
答疑 2:决策树的剪枝在 sklearn 中是如何实现的?
- 深入了解
- 翻译
- 解释
- 总结
这篇文章涵盖了数据分析算法中的关键问题和答疑内容,包括决策树、朴素贝叶斯、SVM、K-Means、EM聚类和关联规则挖掘等算法。在答疑部分,作者解答了读者关于算法实现细节和应用场景的疑问,强调了算法思想的重要性。此外,还提到了XPath路径的查找技巧和最小支持度与置信度的关系。在AdaBoost算法部分,作者解释了样本权重和目标结果的含义,并提出了两个思考题,引导读者思考数据挖掘工具和数据集的使用经验。整体而言,本文内容涵盖了算法实现细节和应用场景,对读者快速了解这些算法的关键问题具有指导意义。
《数据分析实战 45 讲》,新⼈⾸单¥59
全部留言(16)
- 最新
- 精选
- 志Kaggle的Python数据分析入门教程:https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners 另外入门级别的kernels就是Titanic和房价预测: 1、https://www.kaggle.com/c/titanic 2、https://www.kaggle.com/c/house-prices-advanced-regression-techniques
编辑回复: 对的,Kaggle里很多数据集都不错,另外在专栏里也会讲到关于信用卡违约率分析和信用卡欺诈分析。下面整理了一些数据集,更多数据集,可以通过https://www.kaggle.com/datasets 查找 Titanic: Machine Learning from Disaster Titanic乘客生存预测 https://www.kaggle.com/c/titanic House Prices-Advanced Regression Techniques 预测房价 https://www.kaggle.com/c/house-prices-advanced-regression-techniques MNIST手写数字识别 https://www.kaggle.com/scolianni/mnistasjpg Passenger Satisfaction 乘客满意度,提供了美国航空公司US Airline乘客满意度数据 https://www.kaggle.com/johndddddd/customer-satisfaction Bike Sharing Demand 自行车共享数据库,用于预测自行车的共享需求 https://www.kaggle.com/lakshmi25npathi/bike-sharing-dataset San Francisco Building Permits 5年时间,三藩市20万的建筑许可 https://www.kaggle.com/aparnashastry/building-permit-applications-data San Francisco Crime Classification 12年时间的三藩市的犯罪记录 https://www.kaggle.com/kaggle/san-francisco-crime-classification
2019-03-0624 - 小熊猫老师可以总结一下,这十个算法的应用场景、优缺点吗
编辑回复: 首先十个经典算法代表了十种数据挖掘思想,基于他们都有不少算法的变种和改进,对数据挖掘的影响是非常深远的。 另外这十大经典算法,解决的问题也不同,按照解决问题来划分的话: 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART 聚类算法:K-Means,EM 关联分析:Apriori 连接分析:PageRank 所以这十大算法要解决的问题也不同,比如分类是一种有监督的学习方式,事先知道样本的类别,通过数据挖掘可以将不同类别的样本进行区别,从而对未知的物体进行分类。而聚类是一种无监督的学习方式,事先不知道样本的类别,而是通过相关属性分析,将具有类似属性的物体聚成一类。 所以对十大算法的理解,想要知道他们解决的是哪类问题。然后针对同一类问题,比如分类问题,也有不同种解法,比如C4.5,朴素贝叶斯,SVM,KNN等。 不同的算法实际上都有自己对这个问题分析的方式,很难说哪种算法更优,哪个算法不好。实际上这和我们的样本有很大关系,不同的样本属性,样本分布,特征值等,采用不同的算法结果都会有差别,最好的方式就是都做一遍,然后选择针对这个训练集/测试集最优的算法。所以你能看到,在后面的练习中,我们往往都在采用多种算法。 另外我想说的是,关于算法的研究,这十大算法是根基,很多人都会在这些算法基础上提出自己的模型,就类似于研究生期间发表论文,都是在这些算法(会有这个算法相应的参考文献)的基础上进行的改进。同时,也会给出自己所采用的的数据集,然后针对这个数据集,采用传统方法和改进方法进行对比,得出结论。所以:算法是可以改进的,采用哪个适合和数据集也有关系,很多时候都会做一遍然后选择适合的。
2019-03-07213 - 王彬成一、sklearn自带的小数据集(packageddataset):sklearn.datasets.load_<name> 1)鸢尾花数据集:load_iris():用于分类任务的数据集 2)手写数字数据集:load_digits():用于分类任务或者降维任务的数据集 3)乳腺癌数据集load_breast_cancer():简单经典的用于二分类任务的数据集 4)糖尿病数据集:load_diabetes():经典的用于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,方差归一化的特征值。 5)波士顿房价数据集:load_boston():经典的用于回归任务的数据集 6)体能训练数据集:load_linnerud():经典的用于多变量回归任务的数据集。 体能训练数据集中的特征名称linnerud.feature_names为['Chins', 'Situps', 'Jumps'] 鸢尾花数据集的特征名称iris.feature_names为['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']
作者回复: 很好的总结 感谢
2019-03-068 - 听妈妈的话https://www.kaggle.com/learn/overview 页面里有分类好的比较简单的kernel,可以fork kernel在kaggle上运行,也可以下载ipynb或者rmd文件在自己的电脑上运行。比较经典的kaggle竞赛有泰坦尼克预测,房价预测,数字识别等,刚起步时可以参考这些竞赛里的kernel. 另外,有一个开源组织ApacheCN有一些kaggle的培训,有很多相关的活动,也可以找同伴组队参加比赛。
编辑回复: 整理的不错 可以看看 https://www.kaggle.com/learn/overview
2019-03-234 - Merlin尝试过kaggle上预测房价的项目,适合入门
作者回复: 不错 加油
2020-01-293 - thirdimport sklearn.datasets as db # help(db)#可以查看文档,有很多的数据集 # 准备数据集 iris=db.load_iris() print(iris.feature_names) 结果 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 说来惭愧,到现在为止,都还没有注意到Kaggle的重要性。刚去看看了入门,发现这篇文章介绍的不错 http://www.360doc.com/content/18/0106/16/44422250_719580875.shtml# 一些摘要 Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。 除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。从某种角度来讲,大家可以把它理解为一个众包平台,类似国内的猪八戒。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。
作者回复: kaggle给数据分析师提供了非常好的数据集
2019-03-063 - 建强有一个问题想请教一下老师,每次做算法模型训练,用训练集数据拟合一个模型后,如何把它保存下来,如果不保存拟合后的模型,每次要做新的预测时,难道都要用样本训练集重新拟合模型?
作者回复: 可以使用picke工具 import pickle # fp_lr_model 是模型保存的文件位置 pickle.dump(lr_model, open(fp_lr_model, 'wb')) lr_model = pickle.load(open(fp_lr_model, 'rb'))
2019-12-282 - 吃饭睡觉打窦窦学校学了一遍,这里又学一遍,这才把东西学透点,但是我好奇为啥课堂上学不会呀?[滑稽](老师是个海归)
编辑回复: 哈哈 需要和知识反复交朋友,其实很多需要推导的知识,往往需要学习多次,所以也很正常。
2019-03-272 - 小熊猫老师 为什么三个相关性大的特征只选一个呢?原理是什么?
编辑回复: 首先特征选择是数据挖掘(机器学习)中的重要问题之一,一般来说对于数据特征空间大的数据集来说,我们需简要对特征进行选择,也就是选取有代表性的特征,来降低特征空间的冗余度,提升算法的效率。 特征选择的过程,你可以理解是从m个特征中选择n个特征的过程,文章中从三个相关性大的特征只选择一个,目的是在于降低冗余信息,缩减特征维数。
2019-03-0622 - 王彬成在第21课朴素贝叶斯分类(下),对中文文档进行分类,老师可以提供完整代码吗?一直遇到对中文词组不支持的问题?
编辑回复: 完整代码在https://github.com/cystanford/text_classification
2019-03-062