• Alex王伟健 置顶
    2018-12-19
    https://mubu.com/doc/y6YuGg_UA0
    有些挺耳熟,不过都还给老师了。工作中或者生活中多用应该就忘得少了

    编辑回复: 赞

    
     36
  • 三年二班邱小东
    2018-12-19
    老师你好,数学原理里面的内容需要到什么程度,才可以呢?数学这一模块是我很担心的,因为数学实在不怎么样。不知道有什么书籍可以提升这个方面的知识呢。以后常用的也就是这十大算法吗?

    作者回复: 如果很多人都有这个情况的话,我想抽个时间,给你整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”

     6
     104
  • Cathy
    2018-12-19
    体会:
        ①学渣与学霸最大的区别不是智商,而是学习方法和学习态度。作为一名计算机出身的工科女,曾经差点溺死在各类算法的海洋里,目前初入社会做产品,又差点迷失在数据的大山。个人还需要调整自己的学习方法和学习态度。
        ②当前个人接触的仅仅是数据收集、数据处理、数据分析、数据展现,看到老师的数据挖掘6步骤,感觉深奥许多,期待老师后续的详细讲解。
    课后思考:
        对于思考题,我想到了沃尔玛 “啤酒和尿布” 经典案例。沃尔玛正是将Apriori算法引入到POS机数据分析中,从而获得了营销上奇迹。简单说来就是在一个数据集中,找到经常出现的商品组合。当然Apriori算法的计算量很大,当商品数据量大时效率低,FP-Tree算法优化了该算法。
    展开

    作者回复: 总结的不错👍

    
     32
  • vincent
    2018-12-19
    数学太差,毕业很久了怎么学习呢?

    作者回复: 不用担心,很多人都有这个问题。我觉得你可以尝试:
    1、培养兴趣:兴趣是最好的老师,我们大自然的很多科学都是和数学相关,比如为什么雪花是六边形?
    2、刻意训练:你不需要通过做项目来做完整的数学训练,比如你和朋友去吃饭的时候,你可以脑算下一共花了多少钱?很多时候,心算是数学的一个能力
    3、价值暗示:数学可以帮你很多,尤其是在算法效率、代码质量上。很明显,数学好的人,写出来的算法效率也更高。
    所以一个代码完成后,你可以问自己个问题:还有没有更好的方法?

    
     20
  • JingZ
    2018-12-19
    (1)数据挖掘学习方法体会:有了知识清单,相当于有了一个系统思维在那,对快速识别问题的确很有帮助~很好的方法方便实践,就像巴菲特和芒格的投资是使用的公司尽调清单一样,MECE的解决问题
    (2)基于电商商品的关联进行推荐从而提高销售的话,个人认为是Apriori算法,其为了提取频繁项集和一定置信度的关联规则,即用户购买了X产品有多大概率去买Y,根据置信度高的原则推荐

    作者回复: 总结的很好,大家可以看下。尤其是用到了MECE原则👍

    
     19
  • Key.
    2018-12-19
    理解了数据比选择算法建立模型更重要。我觉得电商网站可以采用Apriori算法,因为通过挖掘频繁项集,可以探索到物品之间的联系,从而为商家提供销售思路!

    作者回复: 是的,Aprior是个挖掘商品关联关系的常用算法

    
     12
  • 五岳寻仙
    2018-12-19
    总结与思考:

    1. 商业理解:如老师之前所讲,数据挖掘是工具,要么帮我批处理,要么拓展我们思考的规模。也就是说问题本身是人能够处理得了的,只是受限与时间太长或者规模太大,需要借助计算机。人工智能是人思考的放大,如果一个问题人都想不通,指望借助人工智能算法解决,目前恐怕还不现实。遇到问题,首先要“商业理解”,形成一个思路,然后考虑如何借助算法。
    2. 问题归类:要解决的问题是属于分类,回归,聚类,还是关联分析等。每种类别的问题都有相对应的算法。不过有时候,对数据做不同的处理,能使问题适用于不同的算法。
    3. 数据准备:数据准备已经能提现个人思想了,处理常规的缺失值处理、标准化/归一化,更重要的是所谓的“特征工程”,它决定了数据呈现的方式。同样的数据,呈现方式不同,算法学到的东西也不同。
    4. 模型评估。有很多不同的评估指标,需要根据具体问题选择。模型的训练是一个最优化问题,目标不同,优化的方向也不同。

    课后思考题:

    根据老师文中讲到的方法,我觉得有如下这些方法可以用来做商品间关联分析:

    1. Apriori:文中提到是通过挖掘频繁项集,来揭示商品间关系。(不太了解这个算法,期待后续学习)
    2. KNN:通过临近商品,判断该商品的特征。我不确定是否试用,但感觉应该能解释商品间的相似性。

    以上是自己对课程的理解,有不对的地方,请老师和大家指正。
    展开
    
     11
  • HxScript
    2018-12-19
    文中的引子我深有体会:
    我本科就是学的石油工程。油藏的勘探、储量预测、钻井、采油的确对应了数据挖掘的发现业务中的key points、收集业务中的相关数据并建模、再将模型反代入业务进行模型持续的评估、输出可视化的数据分析结论以及报告。

    我们在储量预测(数据建模)的时候,也有很多针对不同应用场景的不同方法,增产期用什么、断块油藏用什么模型(将数据分类用什么、对数据进行关联分析用什么算法)


    再回答电商网站挖掘商品间的关联关系,提高销售额的问题:
    根据Apriori算法的描述,电商的推荐系统(大家熟知的啤酒尿片)应该就是用其建立的。
    当然也可能不止这一种,可能还会用分类算法,对用户分群建立用户画像,某一类用户画像,又通过pagerank算法,发现该用户画像下,出现概率高的商品,并进行推荐。

    以上是自己的浅薄理解,有误还望童靴们和老师指正~
    展开
    
     10
  • captain
    2018-12-19
    陈老师好~我是一名产品经理。目前掌握了简单的python语法,sql语句,在工作中主要使用Tableau作为数据分析工具。希望陈老师推荐下一些书籍(数据分析和统计学)谢谢

    作者回复: 《利用Python进行数据分析》(使用Python的人可以看看)
    《Pentaho Kettle解决方案》(ETL工程师会用到)
    《精益数据分析》(商业模式画布,如何构建数据指标体系)
    《Tableau数据可视化实战》(这个你应该会了)
    《看穿一切数字的统计学》
    《写给所有人的极简统计学》

    
     7
  • 花生
    2019-02-11
    觉得最难的不是算法,而是数据到算法选择过程中的衔接工作,比如特征工程。还有就是得到分析结果并不难,解释结果怎么来的,合理性分析很难。
    
     5
  • Robin
    2018-12-20
    apriori
    
     5
  • Chen
    2018-12-26
    决策树这块,C4.5和CART主要不同在哪呢?一般什么时候用C4.5,什么时候用CART呢?
    CART即是分类树,又是回归树,是即可以解决分类问题,又可以解决回归问题吗?怎么用呢?
    
     4
  • sarach
    2018-12-19

    一直对数据挖掘感兴趣,但没有找到合适的学习方法,通过这节课 系统的对数据挖掘算法整体有了个认识;希望之后的每一天都可以进步·~

    课后思考题:
    我觉得可以采用 ‘朴素贝叶斯(Naive Bayes)’ 对商品进行分类;
                           ‘ KNN ’ 商品的分类 邻近算法 知道有哪些相关的 分类;
                           使用关联Apriori 算法 对购买过相关品类的人进行推荐;来提升销售额;
    麻烦老师点评是否正确?
    展开
    
     4
  • 凛冬里的匍匐者
    2018-12-19
    C4.5算法中的剪枝是什么意思?机器学习中的梯度下降法是不是也是以最优化方法为数学基础的?
    
     4
  • 双木公子
    2019-01-20
    发现我天然具有学数据挖掘的条件,基础数学理论知识掌握的比较牢固,算法中的图论知识也比较感兴趣。

    作者回复: 很好!

    
     3
  • 香ᝰAmyTian
    2018-12-24
    强烈要求老师整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”, 不然感觉后来会越来越迷茫的。 谢谢老师

    作者回复: 可以 多谢反馈 我和运营沟通下 争取做个专题出来

    
     3
  • 十二先森
    2018-12-19
    我大学不是计算机专业,学习这个概率和统计学从哪方面下手

    作者回复: 感谢关注,其实高中的时候,我们也会接触简单的概率论知识。这里你可以带着问题,去思考。先知道每个概念代表的意义即可,如果不能推导公式,没有关系。不影响你对“条件概率”“联合概率”的理解,也不会影响你使用这些工具,因为在python中都有相应的类库
    在使用的基础上,如果你想进一步探索概率论的原理,可以自己推导下这些公式,也可以多做一些相关练习,来加强自己的理解

    
     3
  • 追梦小乐
    2019-01-01
    咦 ,怎么没有隐马尔科夫HMM?

    作者回复: 这里只介绍十大经典算法,有一些算法没有放进去,深度学习,HMM这些确实用的也比较多

    
     2
  • denzel.mffl
    2018-12-23
    https://mubu.com/doc/fplKTT3Gln
    楼上推荐的幕布真是个好应用,总结特别方便,理解也更加深刻了,还可以导出思维导图。

    作者回复: 幕布确实很好用,我也是看到留言中不少人在用👍

    
     2
  • Louie Zhang
    2018-12-21
    可以使用Apriori算法得到各样品之间关联的程度大小,关联性越大,那么可将该对应商品捆绑销售,可达到提升销售额的目的。还望老师批评指正,谢谢!
    
     2
我们在线,来聊聊吧