极客时间-轻松学习，高效学习-极客邦

GAC·DU
置顶
2021-09-13
真值: 14389.900000000007 线性回归预测值: 150.00460000000007 决策树预测值: 106.2 随机森林预测值: 150.00460000000007 验证集上的R平方分数-线性回归: 0.3002 验证集上的R平方分数-决策树: 0.3391 验证集上的R平方分数-随机森林: 0.3353 老师，我复现了一下代码，但是真值和预测值偏差较大，对于这种问题，老师的解决问题思路是什么啊？
作者回复: 关于这个数据点的预测值和真值。这里有几个方面的考量。第一，我们的数据量比较小，只有几百个用户的数据。要得到更健壮的模型，需要很大量的数据。第二，从数据的角度，这个数据点他的前三个月和后12个月消费行为变化比较大。这个用户应该是前面消费很少，后期消费突然增多。那么，从我们这个示例模型的建模方式来说，对这种类型的用户，预测的就会很不准确，可以从特征选择、建模的方法来考虑有没有新的 idea。其实啊，要预测未来的数值，理论上虽可行，但一定要做好有巨大误差的准备。这和预测股价类似，理论上模型可能预测一个上升趋势，但是实际上可能因为特殊因素突然大幅下跌。
4
在路上
置顶
2021-09-13
佳哥好，加上SVM和朴素贝叶斯算法之后R^2值为： ``` 验证集上的R平方分数-线性回归: 0.4333 验证集上的R平方分数-决策树: 0.3286 验证集上的R平方分数-随机森林: 0.5130 验证集上的R平方分数-SVM: -0.1085 验证集上的R平方分数-朴素贝叶斯: 0.4417 ``` 可以看到朴素贝叶斯算法的效果也不错，SVM算法的效果则很差。写Demo的时候发现sklearn库非常强大，测试不同算法的效果非常容易。回归问题的评估指标有很多种，R^2、均方误差、中值绝对误差有什么区别呢？首先是取标准值，是数据集的中值，还是数据集加总后的平均值。然后是误差的计算，距离标准值越大，结果以什么样的形式放大，是差值的绝对值，还是差值的平方，平方意味结果被显著的放大，差值越大的数据影响越大。最后是消除原始数据离散的影响，这体现在R^2计算公式的分母中，原始数据离散程度越高，很可能会导致预测结果的波动越大。
作者回复: "写Demo的时候发现sklearn库非常强大，测试不同算法的效果非常容易。" ---- 太棒了，你发现了这一点，这个课程就没有白学了。用好它！😍
1
李冀
置顶
2021-09-13
“通过不同RFM层级就可以确定不同的获客成本”。但花钱引流时不知道RFM值啊，再建立一个渠道、城市到RFM的模型？感觉初期RFM到LTV的关系对促活更有指导意义，而不是拉新
作者回复: 对的。总结的好。RFM主要用于观察老用户，然后促进在老用户身上的营收增长，精细化运营。在拉新过程中，也就是起到一些估计指导意义，大概估计一批新用户有可能带来的平均回报吧。
1
For Uuuuu
置顶
2021-09-13
有交流群吗？
作者回复: 有，欢迎加群，方式见课程介绍链接。 https://time.geekbang.org/column/intro/438
共 2 条评论
3
Geek_06d12d
2022-10-07 来自浙江
预测值和老师贴的相差较大，看了下老师在github上的代码，发现再清洗的时候没有把数量小于0的给清洗掉。
作者回复: 谢谢同学的分享和发现！
2
青松
2021-09-16
这个课程有jupyter notebook格式的文档吗？想一边教学一边实践
作者回复: 有啊，所有的jupyter notebook我不是都上载到GitHub里面了么。https://github.com/huangjia2019/geektime
2
190coder
2023-01-11 来自北京
rfm值高会不会有边际效益递减的问题，应该多花钱给Rfm低的用户，弹性更大
作者回复: 也是一种思路！
1
谦
2021-09-14
sklearn很好用，不过在实际项目中我经常需要把训练好的模型移植到其他平台上，例如用c语言重新实现一次预测模型，一般来说svm移植比较简单，找到coef_和intercept_，复制一下就可以。决策树相对麻烦一点，要递归遍历整棵树，输出特征和阈值。随机森林或者使用决策树的adaboost就要遍历很多棵树。想请问佳哥在预测模型的移植和应用上有没有一些经验可以分享一下？谢谢😊
作者回复: 在模型移植这方面，我的经验就相对有限一些。因为大的项目组中，负责建模和负责模型部署，或者模型移植复现的是两组人。让我来查阅一下相关方面的资料，然后在后面做一些分享。😁
1
地平线
2023-08-11 来自上海
验证集上的均方误差-线性回归: 10657316.3310 验证集上的均方误差-决策树: 11584241.1637 验证集上的均方误差-随机森林: 10526728.9502 验证集上的均方误差-支持向量机: 17952311.0810 验证集上的均方误差-贝叶斯: 10463919.5367 验证集上的中值绝对误差-线性回归: 757.0875 验证集上的中值绝对误差-决策树: 798.1450 验证集上的中值绝对误差-随机森林: 868.3853 验证集上的中值绝对误差-支持向量机: 1002.8237 验证集上的中值绝对误差-贝叶斯: 718.2908
作者回复: 好
trust
2021-12-28
老师，前三个月付费是0的用户也是需要分摊成本的不，为啥要把这部分人去掉呢，这样会不会让得出来的投放成本变大呢？第二个问题是rfm三个特征还是都需要做共线性判断哒
作者回复: 同学的两个建议都很有见地！基于具体的情况，场景，我们的特征工程还可以进一步优化和调整，以做的更完美。
共 2 条评论