• 小气筒
    2019-01-24
    老师您好,我今年六月份刚本科毕业,入职一家大型国企的科技公司,最近新上了一个项目是关于物联网的,大概就是采集全国上千万只表的数据供业务场景使用,这些表大部分是五分钟采集一次数据,小部分是准实时采集,并对这些表进行开关阀操作,有准实时的和非准实时的,我是计算机专业毕业的,但是只是实习的时候在一家小型公司用ssm做过业务代码,目前也只会java的一些基本框架,基本的数据结构和算法,比如链表,数组,红黑树,二叉树,跳表等这些基础的数据结构,算法能力一般,没有刷过leecode题目,但能手写出基本的数据结构算法,数学基础基本停留在高中,最近也开始看概率论与数理统计,线性代数,机器学习实战也只看了一半,了解knn,朴素贝叶斯,逻辑回归这些算法的基本使用,但只会调参,不会建模,python基本语法还算了解,numpy这些库看着教程也能进行使用,hadoop家族里大部分的组件我都知道是做什么的,而且依赖于谁,只上手自己搭建过hdfs,yarn,hive,kafka,hbase这些基础的组件,但是都接触很浅,这些都是我在课下自己学习的,没有实践过。但是物联网采集平台经理说让我负责数据采集和数据清洗还有数据存储方面,因为会投标,可能会使用阿里腾讯他们这些成熟的云平台和组件,目前接手的就我自己,请问我能接下来这个任务嘛?今年六月份就要连接200w只表初步上线了,我现在对自己很没有把握。项目组人很少,这么大的项目,组里面就十个人,只有我一个刚毕业的开发,剩下都是搞业务的。我应该怎么办啊,从我来到现在都没有一个懂技术的人带领着,我心里很慌。我接下来应该怎么做啊?
    展开

    作者回复: 机会难得,好好把握,努力学习,虚心请教
    年轻人,不要怂,just do IT

     2
     8
  • Geek_534f73
    2019-01-25
    啤酒尿布的那个例子有一些问题。“在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。”
    逻辑是超市中买尿布人的很可能是年轻父亲,而他们也很可能买啤酒。反过来有些问题,因为买啤酒的人太多了。另外,在电子商务环境中,年轻妈妈更多的是自己上网购买尿布,因此,在购物网站上这种推荐用处可能非常非常小。
     1
     4
  • 小老鼠
    2019-02-02
    算法python 有专门lib库吗?
    
     2
  • Mr.z
    2019-01-24
    我在京东沃尔玛店铺搜索,有啤酒,奶粉,牛奶,笔记本,电脑包,杜蕾斯,但是每次下部的店长推荐很固定的就是 奶粉,尿不湿,食用油,这个是根据用户画像推荐,还是根据每次搜索的商品类别进行关联推荐,亦或者这个就是固定广告位呢?
    
     2
  • 杰之7
    2019-01-24
    通过这一节的阅读学习,了解了数据挖掘的一些关系算法。Pagerank,Apriori,K-means,这些算法在计算前不需要进行标注数据,也叫无监督算法。

    在Pagerank算法中,通过链接的关系,计算每一个网站的排名权重,得到我们最想要的网站在最前。

    Apriopi算法,我的理解也是在选择一个最小商品组合之后,不断迭代,筛选出所有满足最小支持度的频繁模式。

    K—means算法,通过计算数据的平均值找出中心点,进一步计算中心点,直到每一个分组的中心点不在移动。

    老师,我的一个疑问是,为什么关联推荐中是找到最小支持度的频繁模式呢?不应该是最大吗。
    展开

    作者回复: 就是至少有这么多出现,才叫有关联。

    
     1
  • vigo
    2019-04-01
    拨开云雾见青天
    
    
  • Sam.张朝
    2019-01-31
    算法知识结合具体的例子讲一下,会更好。
    
    
  • 明亮
    2019-01-29
    有一个疑问,聚类算法K-means要求提前知晓分组个数K, 用户怎么知道应该分成几个组呢。

    作者回复: 根据经验或者其他的算法专门计算K

    
    
  • eldon
    2019-01-25
    老师我是一个学生 现在刚学完hdfs mapreduce yarn hive下一步学习路线应该怎么安排
    
    
  • 张贝贝
    2019-01-24
    但是迭代几次之后就全部为0了

    作者回复: 不论迭代多少次,4个页面的分值之和都是4

    
    
  • 张贝贝
    2019-01-24
    pagerank那个例子有问题,没有任何web指向c。如果用原始的pagerank公式,c的分数是0,导致b的分数也是0,然后d的分数也会是0,最后所有的分数都是0

    作者回复: 原文:
    初始的时候,所有页面都是 1 分

    
    
  • 梁中华
    2019-01-24
    期待后文展开讲更多的例子
    
    
我们在线,来聊聊吧