37 | 如何对数据进行分类和预测?
李智慧
该思维导图由 AI 生成,仅供参考
今天我们进入专栏的最后一个模块,补全大数据知识体系最后一块拼图,一起来学习大数据算法。大数据越来越多的和人工智能关联起来,所谓人工智能就是利用数学统计方法,统计数据中的规律,然后利用这些统计规律进行自动化数据处理,使计算机表现出某种智能的特性,而各种数学统计方法,就是大数据算法。关于专栏算法模块的设置,我会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面,为你展开大数据算法的“全景图”。
分类是人们认知事物的重要手段,如果你能将某个事物分类得足够细,你实际上就已经认知了这个事物。如果你能将一个人从各个维度,比如专业能力、人际交往、道德品行、外貌特点各个方面都进行正确的分类,并且在每个维度的基础上还能再细分,比如大数据专业能力、Java 编程能力、算法能力也能正确分类,那么可以说你已经完全了解这个人了。
现实中,几乎没有人能够完全将另一个人分类。也就是说,几乎没有人能完全了解另一个人。但是在互联网时代,一个人在互联网里留下越来越多的信息,如果计算机利用大数据技术将所有这些信息都统一起来进行分析,理论上可以将一个人完全分类,也就是完全了解一个人。
分类也是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系,这样当有新的数据进来时,计算机就可以利用这个关系自动进行分类了。更进一步讲,如果这个分类结果在将来才会被证实,比如一场比赛的胜负、一次选举的结果,那么在旁观者看来,就是在利用大数据进行预测了。其实,现在火热的机器学习本质上说就是统计学习。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了大数据算法中的分类和预测方法,重点介绍了KNN分类算法及其原理。文章指出,分类是认知事物的重要手段,而大数据技术可以通过对历史数据规律的统计进行分类,并利用这些关系进行预测。KNN算法是一种基本的分类算法,通过对待分类数据和已分类样本的距离进行比较,确定待分类数据的类别。文章还介绍了数据的距离计算方法,包括欧氏距离和余弦相似度,以及它们在机器学习中的应用。总的来说,本文通过简单的KNN算法展示了大数据分类算法的特点和应用,为读者提供了对大数据算法的初步了解。 此外,文章还介绍了文本特征值的提取方法,以及贝叶斯分类算法的原理和应用。文本特征值的提取通过TF-IDF算法实现,而贝叶斯分类算法则基于条件概率进行分类。贝叶斯分类算法在垃圾邮件分类等实际场景中有着广泛的应用。 总的来说,本文通过介绍KNN算法、文本特征值提取和贝叶斯分类算法,为读者呈现了大数据算法在分类和预测方面的重要性和应用价值。文章内容涵盖了基本的分类算法原理和实际应用,对于对大数据算法感兴趣的读者具有一定的参考价值。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》,新⼈⾸单¥68
《从 0 开始学大数据》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(19)
- 最新
- 精选
- leadlugeKNN的那个例子(3,3,3)和(6,6,6)的余弦相似度按照公式=(3*6+3*6+3*6)/((根号27)*(根号216))不是1吧,值应该是1/(根号2),是老师笔误还是我理解错了^_^
作者回复: 分母是:根号27 * 根号108
2019-01-24 - 老陈精辟! 跟随老师一路走来,学到很多,您这个专栏特点是理论知识阐述的非常清楚,不像技术书籍那样子晦涩,同时专栏也夹杂大量的工作方法和技巧,而这些方法和技巧不是技术书籍里能够看到的。2019-01-22143
- 杰之7跟着老师进入了最后一个模块的学习,也是这两年最火的名称,机器学习和AI。 在这一节中,老师讲述了AI的定义,数据统计出来的规律,自动化的数据处理,使其表现出某种智能的特征。我的理解是人工智能依然是统计学的范畴,只不过将海量的统计规律用在计算机来自动处理学习,达到智能的效果。 在数据统计方法中,老师介绍了分类算法KNN,关键点是通过提取向量,对特征向量进行距离或者余弦计算,然后通过KNN的处理步骤,得到分类的结果。 另一种分类是条件分类贝叶斯,老师介绍了贝叶斯在邮件分类的处理。 结合这一节的学习和生活中的现象,分类已经在各行各业中应用成熟。网购的购买标签分类之后推荐相似产品,头条系的定制推荐,现在的定制化制作,都在属于分类算法。2019-01-238
- Python谁能用python实现看看2019-01-225
- 你为啥那么牛李老师,之前做过一个通过算法,分辨农机田地作业轨迹与道路轨迹的业务,也不了解这些算法,自己就通过数据特征琢磨,也涉及到距离计算、方向计算等等,实现就是不理想。看了几天的文章,貌似有点领悟了。 在我公号里有这么一篇文章,如果有时间,能大概分享下你的思路吗? 原文链接:https://mp.weixin.qq.com/s/cNWQHT_ERk73lYqVW6K5RA2021-03-153
- 任鹏斌老师讲的通俗易懂竟然一下就看懂了,不错,希望能学到更多2019-01-223
- 纯洁的憎恶机器分类KNN。 首先要定义和提取特征向量,然后将其数字化。通过标记、计算样本的特征向量,给予机器指引。采用欧式距离、余弦相似度、TF-IDF、贝叶斯公式等方法,计算待分类对象与样本数据的特征向量差异,找到最近似的分类。2019-01-222
- 伊森很好2019-01-221
- 1043十几年前,我在大连市一个比较有名的财经类院校附近刚吃完饭,走出饭店门口,见到一位美丽动人,楚楚可怜,穿着裙子,喷着香水,擦着胭脂水粉,然而ta有喉结,说话是男声……我一脸懵的看了看这个“美人”,ta不耐烦的警告我说:“看什么看,老娘是男的。”我都没算出来ta到底是男是女,贝叶斯算法能算出ta是女生的概率为100%?那我告诉你这个贝叶斯算法算错了!2022-05-20
- 亚林有点像数学建模竞赛2021-08-30
收起评论