• JingZ
    2018-12-26
    AA

    项目经历:
    作为一个致力成为公募基金的行业研究员,平时会用excel做底稿处理数据作图分析趋势,然后写成深度报告。

    最近在分析疫苗行业批签发的数据,从官网复制到excel中,10年数据,每年5500条数据,然后在excel处理写公式数据清洗除去重复的数据,统一单位,统一格式,预处理完之后,数据透视表选择变量来看批签发数据趋势,最后做出各类条形图、饼图、雷达图等等,写成报告做成ppt路演😀😀在处理数据时急需用python加快效率
    展开
     1
     30
  • xiao豪
    2018-12-26
    答案AA
    第二题
    分类是已知多个类型,输入一个数据就能自动将它归类。
    聚类则是将特征相似的数据划分出来。
    自然语音处理文本语言相关的问题

    将两个毫不相关的物品关联起来,这是关联规则发现。


    我觉得数据挖掘的最大价值是洞察人性。
    展开
     1
     16
  • Conan
    2018-12-26
    两题都选A。
    追女孩的例子真是一目了然:)

    作者回复: 哈哈 很多人想让我做一个白话数学基础的介绍,所以我先把这些概念用“追女孩”的例子解释了下

    
     12
  • frazer
    2018-12-26
    这是找女朋友要AA么?
    
     9
  • 蜘蛛的梦呓
    2018-12-26
    相亲网站

    构建数据仓库
    首先我们通过各种渠道获得各大网站的女孩信息数据,这时的数据是不能直接用来分析的。我们需要通过数据清洗,去除重复的女孩数据,去除描述失实的干扰数据,并且填充缺失值(如:165填充为165cm)。
    然后,为了方便分析,我们需要数据集成,即把各大网站清洗后的相亲数据存储在一个地方。
    当然,有些数据度量单位不一致,这时就需要我们通过数据变换,变成统一的度量单位,最后就能形成我们的数据仓库了。

    数据挖掘
    由于相亲网站的数据量比较庞大,多到你看不过来(比如:5W 条),这时,你就可以使用聚类算法了,它帮你把这些女孩的数据,根据群组特性分成多个群组,比如分成 5个组。再对每个群组的特性进行了解,进行决策,5W → 5个群组的决策,成功实现降维,提升效率。

    商业智能
    通过构建数据仓库和数据挖掘之后,我们已经得到了相当多的数据,但是上帝不会告诉我们规律!我们需要知道心仪的女孩是谁?这就需要商业智能了,商业智能可以说是,基于数据仓库,经过数据挖掘,找到心仪女孩的过程,它能告诉你追到她的成功率有多大,辅助你的决策。
    展开
    
     8
  • Alex王伟健
    2018-12-26
    A,A
    从看似毫无关系的数据中提炼出金子
    幕布笔记:
    https://mubu.com/doc/grrP8_KQ60
    
     6
  • 大萌
    2018-12-27
    1、A
    2、A
    数据挖掘自我理解:
           随着互联网的发展,数据量越来越大与模型算法的不断完善,在这些基础之上,数据挖掘的崛起是必不可少的。简单来说,数据挖掘就是在沙子里淘金子一样,在一大堆数据中,找寻数据的规律,得到我们想知道的某种结果,从而让数据发挥价值,而不是单纯的只是数据而已。
    项目经历:
           毕业半年,个人是从计算机转数据分析岗位,之前对数学知识所知甚少,接触的第一个项目是用户画像,所谓用户画像就是标签的汇总,从用户不同维度的信息当中提取有价值的特征从而构建标签库,最后从标签库探索信息,从而构建用户画像。
           也算是走了一个完整的数据分析流程,从最开始的数据理解、数据预处理、特征选择、以及构建画像时运用到的聚类算法,实现不同人群的划分,使每类用户都具有一些鲜明的特征,从而提高产品服务或者是提升利润。
    我看老师在目录中也有用户画像的标题,希望能从老师这获取用户画像的建议和思路来验证自己的方向是否正确,也希望跟着老师学习更多的数据挖掘知识。
    展开
    
     3
  • Chen
    2018-12-26
    老师好,明年要校招,看到有很多的职位,有商业智能、数据分析、数据挖掘等的几大岗位,它们之间有很多的区别,但又感觉很像。我想做的是使用python进行数据分析,使用机器学习的算法进行模型训练,我应该怎么去识别适合我的职位呢?
    
     3
  • 隰有荷
    2019-08-09
    分类和聚类有什么区别,感觉不是一个意思吗?

    作者回复: 不一样的:
    分类是已知了 类别,然后看样本属于哪个分类
    聚类是不知道有哪些类别,按照 样本的属性来进行聚类,实际上是一种降维方式。

    比如你追个女生,你知道女生有 御姐,萝莉,两种类别,你可以判断下 追的这个女生属于 御姐还是萝莉,这个属于分类。

    比如你追5000个女生,你也不知道女生都有哪些类别,为了方便,你将5000个女生,按照属性的相似度划分成了5个组,这个属于聚类。先聚成了5类,然后再看每个组的特点,给不同的组取名,比如 “大小姐组”,“小家碧玉组”等等,都是先聚类,然后再判断

     1
     2
  • 皮蛋
    2019-02-19
    没太明白聚类和分类区别

    作者回复: 分类就是已经一些类别,看样本属于什么类别
    聚类是不知道类别的情况,把样本划分为几个组(按照样本的特征自动进行划分),然后再观察这些组具有怎样的特征,给这个组取个名字

     2
     2
  • FORWARD―MOUNT
    2019-01-20
    回答问题:如何理解数据挖掘的价值的?

    数据挖掘的价值,其实这是个很大的话题。正因为我做的是数据挖掘的行业,深刻理解一个互联网产品是怎样的一个演变流程,数据如何驱动运营,如何影响决策,最终决定产品走向。这些都是数据挖掘在做支撑。对于电商行业,可以通过数据挖掘引导采购,识别爆款等等,数据挖掘不止赋能于业务部门,更是从公司战略层面给与重大决策支持,以及评估业务上的重大策略效果。

    作者回复: 不错的理解

    
     2
  • 蜘蛛的梦呓
    2018-12-26
    有一天,你的朋友介绍一个女孩给你,告诉你她的元数据(即身高,样貌,联系方式、兴趣、爱好等),这些女孩属性的集合就是数据元。
    经过朋友介绍,见面后,感觉不错,想要继续发展,你朋友的信息已经不够用了,你需要更多的信息。
    你根据她的微博、朋友圈,通过关联分析,找到她的闺蜜,然后,收买她的闺蜜,为你监控她的一举一动,帮你营造合适的表白时机。
    
     2
  • 舒成
    2018-12-26
    老师讲的整个流程都走了一遍,我一边看文稿,一边回忆自己的工作,对做的工作内容界定更清晰了。比如数据预处理中有选择数据子集的概念和特征工程的概念,这是决定分析预测结果最重要的一步。
    今晚8:30咱们直播见!老师开直播了,大家快来围观!
    
     2
  • qinggeouye
    2019-11-03
    1. A : Knowledge Discovery in DataBase
    2. A : Priori Algorithm

    作者回复: 对的

     1
     1
  • 羊小看
    2019-05-18
    AA
    类别标签已知,可以分类,生成分类模型,用于判断无分类标签的新数据;类别标签未知,可以聚类,用于将人群分成几组,做用户画像,根据人群的不同特征来做针对性营销。

    作者回复: 正确,加油

    
     1
  • 杰之7
    2019-01-29
    通过这一节的学习,理解了商业智能,数据仓库,数据挖掘的的原理。一句话,通过对仓库中的数据进行数据挖掘,产生有价值的内容就是商业智能。

    在数据挖掘的过程中,有分类,聚类,关联分析,预测四种情况。通过对训练集的训练之后,对测试集进行测试,达到自动分类的作用。物以类聚,通过事物的相似度,进行聚类。通过对商品之间的相关性进行统计计算,就是关联分析。对过去产生的数据,对将可能发生的数据进行预测,就是预测分析。

    AA。
    展开

    作者回复: 笔记做的不错

    
     1
  • 柚子
    2019-01-19
    两题都选A。
    对数据挖掘的理解:数据挖掘是从海量数据中寻找规律和价值,从而更好地服务商业。但是这些数据基于特定环境下的历史数据,而要预测和挖掘的是未来的价值,所以我觉得数据挖掘应该是基于未来和过去的大环境和人们行为变化不大的理想情况下进行的
    
     1
  • 程序员小熊猫
    2019-01-09
    A A
    KDD: knowledge discovery in database

    数据挖掘的价值:
    世界上的数据实在是太庞大了,各种各样的数据都有,数据挖掘的价值就在于从这些数据中找到我想要的东西,所以首先要确定的是我的目标,我想要什么,带着目的去数据中找寻规律,去挖掘我想要的东西

    作者回复: 结果正确

    
     1
  • EICKE
    2019-01-07
    元数据和数据元 的区别就像是故弄玄虚 生造的概念。
    
     1
  • 修行者
    2019-01-02
    # 两题都是A
    # 数据挖掘的价值
    没做过数据挖掘相关的项目,对数据挖掘确实没有很多的认识,我理解的数据挖掘的价值是在大规模数据中,发现数据之间的关系,然后以可视化的形式展现出来,为用户或者商业提供决策帮助,或者描述出相对应的用户画像,可以进一步商业推荐,产生商业上的价值

    # 整理的笔记
    个人博客:https://bodycoder101.github.io/

    # 数据分析需要掌握的概念

    ## 什么是BI、DW、DM?

    - 商业智能(Business Intelligence,BI):基于数据仓库,经过了数据挖掘后,得到了商业价值的过程
    - 数据仓库(Data Warehouse,DW):数据仓库将多个数据源进行汇总、整理,数据仓库量比较庞大,相比数据库是升级的概念
    - 数据挖掘(Data Mining,DM):包括分类、聚类、预测、关联分析等任务,从数据仓库中得到有用的信息,绘制成商业报告

    ## 元数据 VS 数据元

    - 元数据(MetaData): 描述其他数据的数据,也称为“中介数据”
        - 比如说图书的信息,包含书名、作者等
    - 数据元(Data Element):最小的数据单元
        - 在图书这个元数据中,书名、作者、出版社都是数据元

    ## 数据挖掘的流程

    英文解释为 Knowledge Discovery in Database,KDD,数据库中的知识发现
    包含**分类、聚类、预测和关联分析**

    - 分类:通过训练得到一个分类模型,然后用这个模型对其他的数据进行分类
    - 聚类:聚类就是将数据自动聚类成几个类别,聚在一起的相似度大
    - 预测:通过当前和历史数据来预测未来趋势
    - 关联分析:发现数据中的关联规则,典型应用在购物篮分析

    KDD 过程:
    输入数据 -> 数据预处理 -> 数据挖掘 -> 后处理 -> 信息

    数据预处理通常包括:
    - 数据清洗:去除重复数据,去噪声
    - 数据集成:将多个数据源数据统一存放在数据存储中
    - 数据变换:将数据转换成合适的数据挖掘形式,比如相同的计量单位

    数据后处理:将模型预测的结果进一步处理导出

    > 上帝不会告诉我们规律,而是展示给我们数据
    展开
    
     1
我们在线,来聊聊吧