从 0 开始学大数据
李智慧
同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者
71151 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 47 讲
智慧写给你的寄语 (1讲)
从 0 开始学大数据
15
15
1.0x
00:00/00:00
登录|注册

37 | 如何对数据进行分类和预测?

余弦相似度
欧氏距离
KNN算法的实现
AI中的分类算法
分类算法的重要性
应用场景
贝叶斯公式
特征向量构造
TF-IDF算法
距离计算方法
特征值提取
应用场景
原理
K近邻算法
大数据进行预测
自动分类
历史数据规律统计
互联网时代的信息留存
人工无法完全分类
认知事物的手段
自动化数据处理
统计数据中的规律
利用数学统计方法
神经网络算法
大数据算法的数学原理
推荐引擎
数据挖掘
数据分类
思考题
小结
贝叶斯分类
文本的特征值
数据的距离
KNN分类算法
分类的应用场景
分类的重要性
人工智能与大数据关联
大数据算法
如何对数据进行分类和预测?

该思维导图由 AI 生成,仅供参考

今天我们进入专栏的最后一个模块,补全大数据知识体系最后一块拼图,一起来学习大数据算法。大数据越来越多的和人工智能关联起来,所谓人工智能就是利用数学统计方法,统计数据中的规律,然后利用这些统计规律进行自动化数据处理,使计算机表现出某种智能的特性,而各种数学统计方法,就是大数据算法。关于专栏算法模块的设置,我会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面,为你展开大数据算法的“全景图”。
分类是人们认知事物的重要手段,如果你能将某个事物分类得足够细,你实际上就已经认知了这个事物。如果你能将一个人从各个维度,比如专业能力、人际交往、道德品行、外貌特点各个方面都进行正确的分类,并且在每个维度的基础上还能再细分,比如大数据专业能力、Java 编程能力、算法能力也能正确分类,那么可以说你已经完全了解这个人了。
现实中,几乎没有人能够完全将另一个人分类。也就是说,几乎没有人能完全了解另一个人。但是在互联网时代,一个人在互联网里留下越来越多的信息,如果计算机利用大数据技术将所有这些信息都统一起来进行分析,理论上可以将一个人完全分类,也就是完全了解一个人。
分类也是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系,这样当有新的数据进来时,计算机就可以利用这个关系自动进行分类了。更进一步讲,如果这个分类结果在将来才会被证实,比如一场比赛的胜负、一次选举的结果,那么在旁观者看来,就是在利用大数据进行预测了。其实,现在火热的机器学习本质上说就是统计学习。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了大数据算法中的分类和预测方法,重点介绍了KNN分类算法及其原理。文章指出,分类是认知事物的重要手段,而大数据技术可以通过对历史数据规律的统计进行分类,并利用这些关系进行预测。KNN算法是一种基本的分类算法,通过对待分类数据和已分类样本的距离进行比较,确定待分类数据的类别。文章还介绍了数据的距离计算方法,包括欧氏距离和余弦相似度,以及它们在机器学习中的应用。总的来说,本文通过简单的KNN算法展示了大数据分类算法的特点和应用,为读者提供了对大数据算法的初步了解。 此外,文章还介绍了文本特征值的提取方法,以及贝叶斯分类算法的原理和应用。文本特征值的提取通过TF-IDF算法实现,而贝叶斯分类算法则基于条件概率进行分类。贝叶斯分类算法在垃圾邮件分类等实际场景中有着广泛的应用。 总的来说,本文通过介绍KNN算法、文本特征值提取和贝叶斯分类算法,为读者呈现了大数据算法在分类和预测方面的重要性和应用价值。文章内容涵盖了基本的分类算法原理和实际应用,对于对大数据算法感兴趣的读者具有一定的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(19)

  • 最新
  • 精选
  • leadluge
    KNN的那个例子(3,3,3)和(6,6,6)的余弦相似度按照公式=(3*6+3*6+3*6)/((根号27)*(根号216))不是1吧,值应该是1/(根号2),是老师笔误还是我理解错了^_^

    作者回复: 分母是:根号27 * 根号108

    2019-01-24
  • 老陈
    精辟! 跟随老师一路走来,学到很多,您这个专栏特点是理论知识阐述的非常清楚,不像技术书籍那样子晦涩,同时专栏也夹杂大量的工作方法和技巧,而这些方法和技巧不是技术书籍里能够看到的。
    2019-01-22
    1
    43
  • 杰之7
    跟着老师进入了最后一个模块的学习,也是这两年最火的名称,机器学习和AI。 在这一节中,老师讲述了AI的定义,数据统计出来的规律,自动化的数据处理,使其表现出某种智能的特征。我的理解是人工智能依然是统计学的范畴,只不过将海量的统计规律用在计算机来自动处理学习,达到智能的效果。 在数据统计方法中,老师介绍了分类算法KNN,关键点是通过提取向量,对特征向量进行距离或者余弦计算,然后通过KNN的处理步骤,得到分类的结果。 另一种分类是条件分类贝叶斯,老师介绍了贝叶斯在邮件分类的处理。 结合这一节的学习和生活中的现象,分类已经在各行各业中应用成熟。网购的购买标签分类之后推荐相似产品,头条系的定制推荐,现在的定制化制作,都在属于分类算法。
    2019-01-23
    8
  • Python
    谁能用python实现看看
    2019-01-22
    5
  • 你为啥那么牛
    李老师,之前做过一个通过算法,分辨农机田地作业轨迹与道路轨迹的业务,也不了解这些算法,自己就通过数据特征琢磨,也涉及到距离计算、方向计算等等,实现就是不理想。看了几天的文章,貌似有点领悟了。 在我公号里有这么一篇文章,如果有时间,能大概分享下你的思路吗? 原文链接:https://mp.weixin.qq.com/s/cNWQHT_ERk73lYqVW6K5RA
    2021-03-15
    3
  • 任鹏斌
    老师讲的通俗易懂竟然一下就看懂了,不错,希望能学到更多
    2019-01-22
    3
  • 纯洁的憎恶
    机器分类KNN。 首先要定义和提取特征向量,然后将其数字化。通过标记、计算样本的特征向量,给予机器指引。采用欧式距离、余弦相似度、TF-IDF、贝叶斯公式等方法,计算待分类对象与样本数据的特征向量差异,找到最近似的分类。
    2019-01-22
    2
  • 伊森
    很好
    2019-01-22
    1
  • 1043
    十几年前,我在大连市一个比较有名的财经类院校附近刚吃完饭,走出饭店门口,见到一位美丽动人,楚楚可怜,穿着裙子,喷着香水,擦着胭脂水粉,然而ta有喉结,说话是男声……我一脸懵的看了看这个“美人”,ta不耐烦的警告我说:“看什么看,老娘是男的。”我都没算出来ta到底是男是女,贝叶斯算法能算出ta是女生的概率为100%?那我告诉你这个贝叶斯算法算错了!
    2022-05-20
  • 亚林
    有点像数学建模竞赛
    2021-08-30
收起评论
显示
设置
留言
19
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部