极客时间-轻松学习，高效学习-极客邦

third 置顶

2019-02-20

我也是自己的理解，不知道是否正确，给大家参考一下

构建子树
1.假设已经完成创建项头表的工作，省略count+1
2.扫描数据集，按照项头表排列好的结果，一次创建节点
3.因为尿布出现在所有订单中，没有例外情况，所以这只有一个子节点
4.因为牛奶出现在尿布中的所有订单里，所以只有一个子节点
5.由表中数据可得，在出现牛奶的订单中，面包出现的情况，分为两种，
1）出现3次面包，出现在有牛奶的订单中
2）出现一次面包，出现在没有牛奶的订单中
故，生成两个子节点
6.后续内容属于迭代内容，自行体会

3.创建条件模式集
是一个减掉子树过程。将祖先节点的支持度，记为叶子节点之和，减少频繁项集。
简单理解，就是有几个叶子，说明最开始的节点，怀了几个孩子，怀几个生几个
理解
1.创建含有啤酒的FP树，只有订单中含有啤酒的频繁项集才存在

2.去掉啤酒节点，品酒节点为空，得到，两个频繁项集
见图可理解

作业
1.工作原理
1）K=1，计算支持度
2）筛选小于最小支持度的项集
3）判断如果项集项集为空，K-1项集为最终结果
4）判断失败，K=K+1，重复1-3
2.优化
1）利用FP树和项头表，减少频繁项集的数量存储和计算

展开

编辑回复: 总结的不错，都可以看下。



 8
王彬成

2019-02-24

简述FP-Growth 算法创建过程：
【1】创建项头表。
项支持度
尿布 5
牛奶 4
面包 4
啤酒 3
【2】将数据集按照【尿布-牛奶-面包-啤酒】进行排序，得到
1）尿布、牛奶、面包
2）尿布、面包、啤酒、可乐
3）尿布、牛奶、啤酒、鸡蛋
4）尿布、牛奶、面包、啤酒
5）尿布、牛奶、面包、可乐
【3】构造FP树
1）遍历第1条数据，得到
尿布1 |牛奶1 |面包1
2）遍历第2条数据，得到
尿布2 |面包1 |啤酒1
         |牛奶1 |面包1
3）遍历第3条数据，得到
尿布3 |面包1 |啤酒1
         |牛奶2 |面包1
                  |啤酒1
4）遍历第4条数据，得到
尿布4 |面包1 |啤酒1
         |牛奶3 |面包2 |啤酒1
                  |啤酒1
5）遍历第5条数据，得到
尿布5 |面包1 |啤酒1
         |牛奶4 |面包3 |啤酒1
                  |啤酒1
【4】寻找条件模式基
1）以‘啤酒’为节点的链条有3条
-尿布1 |面包1 |啤酒1
-尿布1 |牛奶1 |面包1 |啤酒1
-尿布1 |牛奶1 |啤酒1
2）FP子树
尿布3 |面包1 |啤酒1
        |牛奶2 |面包1 |啤酒1
                 |啤酒1

3）“啤酒”的条件模式基是取以‘啤酒’为节点的链条，取‘啤酒’往前的内容，即
-尿布1 |面包1
-尿布1 |牛奶1 |面包1
-尿布1 |牛奶1

展开

 3

 30
Sam.张朝

2019-05-09

https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on2-fp-growth/index.html FP 还是这里说的清楚

作者回复: 多谢分享



 3
曹恒源

2019-04-08

您好，陈哥，在文章中，k=2,（1,3）的支持度，不应该是4/5么？这部分的计算方式，不是（1,3）在总的购买的商品出现的次数除以总次数所得到的最后结果？



 3
滨滨

2019-04-06

使用步骤图来解释FG-Growth算法https://www.cnblogs.com/zhengxingpeng/p/6679280.html

 2

 3
lipan

2019-02-28

k=2时，商品项集1,3的支持度是4/5啊



 3
白夜

2019-02-21

Apriori 的工作原理：
0.设置一个最小支持度，
1.从K=1开始，筛选频繁项集。
2.在结果中，组合K+1项集，再次筛选
3.循环1、2步。直到找不到结果为止，K-1项集的结果就是最终结果。

FP-Growth相比Apriori的优点：
降低了计算复杂度，只要遍历两次数据集。可以直接得到指定商品的条件模式基。

展开

编辑回复: 对的是Apriori和FP-Growth的特点。



 3
leestar54

2019-06-13

为啥“啤酒“的条件模式基为空呢？图上祖先节点尿布:3的支持度=3/5大于0.5，这样啤酒的频繁项集可以得到{尿布，啤酒}

 1

 2
Sam.张朝

2019-05-09

构造FP 树，看不懂

 1

 2
ken

2019-02-20

Apriori挖掘频繁项集，那么置信度和提升度是对得出的频繁项集进行验证的是吧？如得出了啤酒的频繁项集后是对每个结果计算提升度，怎么选择最优的组合呢？是否会出现提升度大而置信度下降的情况？

编辑回复: 置信度和提升度是对频繁项集的一种验证，在筛选最优组合的时候，一般会设置最小支持度，最小置信度，这样频繁项集和关联关系都要满足这个条件。提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)，所以提升度是对满足前两者条件的另一种验证方式，这样避免一种情况：置信度(A->B)很高，是因为本身支持度(B)很高，实际上和A的出现关系不大。



 1
Ronnyz

2019-11-21

老师，想问下那置信度和提升度在Aproiri和FP-Growth算法中应用在哪了

作者回复: 可以用于筛选，比如itemsets, rules = apriori(data, min_support=0.5, min_confidence=1)




Maybrittnelson

2019-08-26

在Apriori的改进算法中，面包的条件模式基，应该只有{尿布，牛奶，面包}吧？因为{尿布，面包}中的面包为1，小于最小支持度的项可乐为2，得删除。




Sniper

2019-08-16

这个支持度不应该是个小于1的百分比么，怎么到输出结果里面都变成具体的数字了，这些数字的大小怎么理解呢




滨滨

2019-04-06

Apriori 的工作原理是根据排列组合来计算频繁项集，去掉低于阈值的，然后继续排列组合，直到频繁项集为空。FP-Growth 算法就是利用树来减少查询遍历的次数。




梁林松

2019-02-28

Apriori算法工作原理是通过计算子集的置信度来寻找频繁项集，从而确立关联。
PF-Growth算法是改进的 Apriori, 改进之处在于它是按照明确品类去计算频繁项目集的，而不是去求全部数据集的频繁项集。

作者回复: 对的




李沛欣

2019-02-26

支持度：购买ABC这一商品组合，在所有商品组合中的出现概率

置信度：购买A商品的条件下，购买B商品的概率

提升度：购买A商品又购买B商品的概率，与所有购买了B商品的概率之比。也就是购买A商品对购买B商品的可能性提升能力。

提升度＞1，说明相互促进
等于1，没影响，
＜1，相互排斥

展开




幸福时光

2019-02-24

在创建FP子树前，提醒大家记得删除订单中不满足最小支持度的商品，再按照项头表对每个订单从高到底排序来依次构造FP树。




王彬成

2019-02-24

1、Apriori 的工作原理吗？
Apriori算法的关键是频繁项集。
Apriori算法的基本过程是：
1、扫描一遍数据库，得到一阶频繁项集；
2、用一阶频繁项集构造二阶候选项；
3、扫描数据库对二阶候选项进行计数，删除其中的非频繁项，得到二阶频繁项；
4、然后构造三阶候选项，以此类推，直到无法构造更高阶的候选项，或到达频繁项集的最大长度限制。

2、相比于 Apriori，FP-Growth 算法都有哪些改进？
通过创建FP树存储频繁项集。减少存储空间。
整个生成过程只遍历数据集2次，减少计算量。

展开




Red Cape

2019-02-21

构造FP树的过程这里看不懂，面包，啤酒为什么会拆分呢

编辑回复: FP -Growth中有一个概念叫：条件模式基。它在FP树创建的时候还用不上，创建的时候主要是通过扫描整个数据，和项头表来构造FP树。条件模式基用于挖掘频繁项的过程。通过数找到每个项（item）的条件模式基，递归挖掘频繁项集




Grandia_Z

2019-02-20

1 2 5在k=2时就被筛选剔除了



