• captain
    2019-02-01
    老师好,最近几期的算法课内容量比较大,麻烦推荐一些相关的理论或案例的书籍,谢谢

    编辑回复: 关于书籍:
    《Python数据挖掘与机器学习实战》 因为我在代码中用到sklearn比较多,可以结合这个来看,里面有一些关于sklearn数据集的练习,我在专栏中也用到过,你可以对应起来看
    《白话大数据与机器学习》这本书主要讲算法原理,没有太多实战。想要对原理更深入了解的话可以看看
    《利用Python进行数据分析》 这本相对基础,没有太多算法部分,主要是关于Python的使用:数据结构,NumPy,Pandas,数据加载、存储、清洗、规整、可视化等。
    《精益数据分析》 这本书是将业务场景的,里面没有算法的部分,所以如果你想对业务场景有更深刻的理解,可以看下这本

    关于项目实战
    可以配合 https://www.kaggle.com/
    比如你想做和SVM相关的,可以在kernels中搜索SVM
    https://www.kaggle.com/kernels?sortBy=relevance&group=everyone&search=SVM&page=1&pageSize=20

    
     23
  • third
    2019-02-18
    有监督学习,就是告诉他这个是红的那个是蓝的。你给我分出红蓝
    无监督,自己学会认识红色和蓝色,然后再分类

    硬间接,就是完美数据下的完美情况,分出完美类
    软间隔,就是中间总有杂质,情况总是复杂,分类总是有一点错误
    核函数,高纬度打低纬度,
    展开

    编辑回复: 这个解释比较通俗易懂,大家都可以看看。

    
     19
  • 李沛欣
    2019-02-09
    核函数,是一种格局更高的分类模式。通过它我们可以把原本混沌的一堆数据映射到高维,从上帝视角来对这些数据进行线性分类。

    来,扔个二向箔🤣

    编辑回复: 对的,核函数就是从低维到高维的映射关系。如果从高维到低维进行维度压缩的话,可能就会变得混沌不可分。但是从低维到高维,属性维度增加了,可以在另一个空间中变得线性可分。

     1
     7
  • fancy
    2019-02-27
    1. 有监督学习and无监督学习
    有监督学习,即在已有类别标签的情况下,将样本数据进行分类。
    无监督学习,即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点。
    2. 硬间隔、软间隔、核函数
    使用SVM算法,是基于数据是线性分布的情况,这时使用硬间隔的方法分类数据即可。但实际情况下,大部分数据都不属于线性分布,即通过软间隔、核函数处理后,使得数据可以利用SVM算法进行分类。软间隔是通过允许数据有误差,不是绝对的线性分布;核函数是通过将非线性分布的数据映射为线性分布的数据。
    展开

    编辑回复: 解释的很清晰,大家可以看下。

    
     4
  • Python
    2019-02-03
    硬间隔,我认为就像线性回归一样,一条直线粗暴的画出边界,然后回答YES OR NO。
    软间隔,我认为类似逻辑回归,会绕一下弯子,最后给出的答案是一个概率。
    以上两种方式都是处理线性可分的数据,但碰到线性完全分布开的非线性数据的时候,就需要用到核函数,核函数主要是通过把低维的数据映射到高纬,产生一个落差,并给出一个超平面来划分。

    不知道我理解的对不对,希望老师回答YES OR NO

    编辑回复: 是的,可以这么理解。核函数与硬间隔、软间隔 不是在同一个维度,是从低维到高维空间的映射,因为在同一个维度上已经无法线性可分。而硬间隔、软间隔主要对线性可分的容错率。硬间隔可以完美切分样本,但是软间隔就需要允许有一定的样本分类错误。

    
     3
  • 林
    2019-02-16
    老师好,这一块的数学原理讲的有点少了吧,能不能讲讲拉格朗日对偶和kkt

    编辑回复: 这一块适当屏蔽了一些数学原理,关于拉格朗日对偶和kkt的推导就省略了,感兴趣的同学可以看下SVM原理中的这部分。

    
     1
  • Python
    2019-02-02
    老师,多分类器用的是集成法吗?
    
     1
  • 一纸书
    2019-11-13
    那句"灵机一动,猛拍一下桌子"真的是神来一笔,哈哈哈哈哈哈

    作者回复: 哈哈 确实 很形象

    
    
  • Ronnyz
    2019-11-13
    硬间隔:需要完全分开
    软间隔:允许有个别点分类错误
    核函数:转换到更高维度来达到分类效果
    还有想问下为什么说落在超平面上的点就是支持向量?
    
    
  • 明翼
    2019-11-08
    老师,这里面用二分类算法实现多分类怎么用,比如一对多分类,一个测试样本分别用这几个训练模型去匹配,的到的结果难道是百分比吗?哪个大属于哪个分类?
    
    
  • 姜泮昌
    2019-06-06
    老师,能不能讲讲这些分类算法的区别?尤其是二分类算法,在使用时怎样进行选择呢?谢谢
    
    
  • 张晓辉
    2019-05-17
    监督学习适用于打标签的数据。无监督学习适于用没有标签的数据。
    SVM的硬间隔是指线性分类器完全线性可分,软间隔是指允许线性分类器有一定的分类错误。核函数是针对非线性可分的情况提出来的,可以利用核函数把样本空间投射到高维空间,然后再利用线性分类器进行分类。
    
    
  • 滢
    2019-04-18
    告诉机器,给它一些数据,这部分数据一些是数据集合A,一部分是属于集合B,然后让机器去把数据往集合A和集合B里去划分,这是有监督学习;同样的数据给机器,只是告诉它去做划分和归类,这是无监督学习,类似于孩子的放养。
    硬间隔:表示得到的分类间隔即超平面 能完美的划分数据,不存在划分错误的情况,即零误差
    软间隔:表示得到的分类间隔,没有达到完美的程度,对数据划分存在一定的误差
    核函数:在数据分布无法用线性函数来表示的时候,需要对数据进行划分的标准变成来非线性的,这个时候就需要用到一种函数名叫核函数,核函数要做的工作是将原来的映射关系在更高维度的空间重新映射,使得新的映射关系变得线性可分。
    展开

    作者回复: 对的 整理的不错 滢

    
    
  • Daniel的爹
    2019-04-12
    有监督学习就是在训练组中已知数据的结果,可以对模型的训练进行Supervise监督。无监督就是拿到手的训练集并不知道分类情况,要根据算法来区分并生成对应的结果。
    硬间隔是理想化的世界,非红即白,不允许出错。软间隔有容错率更现实点,包容性强,更有普适性。核函数可以在原本训练集中多加一维,让分类更容易。
    
    
  • 滨滨
    2019-03-29
    有监督学习和无监督学习的根本区别,就是训练数据中是否有标签。监督学习的数据既有特征又有标签,而非监督学习的数据中只有特征而没有标签。
    监督学习是通过训练让机器自己找到特征和标签之间的联系,在以后面对只有特征而没有标签的数据时可以自己判别出标签。
    非监督学习由于训练数据中只有特征没有标签,所以就需要自己对数据进行聚类分析,然后就可以通过聚类的方式从数据中提取一个特殊的结构。
    2、硬间隔、软间隔和核函数
    硬间隔指的就是完全分类准确,不能存在分类错误的情况。软间隔,就是允许一定量的样本分类错误。
    线性不可分的情况下,可以使用核函数将样本从原始空间映射到一个更高维的特质空间中,使得样本在新的空间中线性可分。
    展开

    作者回复: 总结的不错

    
    
  • 行者
    2019-03-26
    有点烧脑了,慢慢消化,感觉一篇文章要花几个小时才能消化。
    
    
  • Geek_dancer
    2019-03-16
    SVM如何与回归应用联系起来?
    
    
  • Wei_强
    2019-02-28
    能讲解一下什么叫做“线性不可分”么?对这个知识点不是很了解,结果导致文章后面的知识点没有怎么理解
    
    
  • 王彬成
    2019-02-21
    1、有监督学习和无监督学习的理解
    有监督学习和无监督学习的根本区别,就是训练数据中是否有标签。监督学习的数据既有特征又有标签,而非监督学习的数据中只有特征而没有标签。
    监督学习是通过训练让机器自己找到特征和标签之间的联系,在以后面对只有特征而没有标签的数据时可以自己判别出标签。
    非监督学习由于训练数据中只有特征没有标签,所以就需要自己对数据进行聚类分析,然后就可以通过聚类的方式从数据中提取一个特殊的结构。
    2、硬间隔、软间隔和核函数
    硬间隔指的就是完全分类准确,不能存在分类错误的情况。软间隔,就是允许一定量的样本分类错误。
    它可以将样本从原始空间映射到一个更高维的特质空间中,使得样本在新的空间中线性可分。
    展开

    作者回复: 很好的总结

    
    
  • 深白浅黑
    2019-02-15
    核心在于数据是否线性可分,以及容错能力强弱。
    硬间隔和软间隔都是处理线性可分的情况,区别在于容错能力。
    核函数用于处理线性不可分情况,将现有数据进行升维,达到线性可分,再进行类别划分处理。

    作者回复: 对的

    
    
我们在线,来聊聊吧