对于新手数据科学家来说，某些致命错误很可能在一夜之间摧毁你的辛勤付出。这些错误会损害数据科学家的声誉，甚至彻底断送原本光明的数据科学从业前景。近日，一位网名为 Dataman 的数据从业者列出一些建模注意事项，帮助你规避这类错误。
1. 注意变量中的“0”、“-99”或“-999”这些通常属于缺失值，因此系统将其设定为极值形式。在参数回归当中，请勿盲目将它们当成可用数值。
不同的系统，可能会设定出“-99”或者“-999”等形式的极值。这些值代表着某些特定含义，且不会随机缺失。请注意，不要在库等软件中盲目处理这类普遍存在的问题。
2. 要求线性回归中的因变量符合正态假设因变量 Y 不必遵循正态分布，但是预测 Y 的相关误差应该遵循正态分布。数据科学家经常检查因变量直方图中的正态性假设。在这种特定情况下，如果因变量遵循正态分布，就会引发错误。
需要再次强调，基本根据是线性回归的误差应遵循正态分布，或者因变量本身会呈现出有条件的正态分布。线性回归的定义是在 X 的每个值中，都存在一个符合正态分布的有条件 Y 分布。以下为线性回归的四大基本假设：
X 与 Y 之间为线性相关。
误差为正态分布。
误差具有同方差性（或者说与线周围的方差相关）。
观察的独立性。
根据大数定律与中心极限定理，线性回归中的最小二乘法（OLS）估计值仍将近似真实地分布在参数真值周围。因此，在一个大样本中，即使因变量不符合“正态假设”规则，线性回归方法仍能够发挥作用。
3. 要求线性回归中的预变量符合正态假设那么预测变量 X 呢？回归不会假设预测变量具有任何分布属性，其唯一的要求就是检查是否存在异常值（可使用盒型图检查异常值）。如果存在，则在该预测变量中应用上限与下限方法。
4. 是否需要在决策树中做出分布假设？在参数式（例如线性回归）中，你可以检查目标变量的分布以选择正确的分布。例如，如果目标变量呈现出 gamma 分布，则可以在广义线性模型（GLM）中选择 gamma 分布。
但是，决策树不会对目标变量进行假设。决策树的基本工作原理，是将每个父节点尽可能划分为不同的节点。决策树不会对初始群体或者最终群体的分布做任何假设。因此，分布的性质不影响决策树的实现。
5. 是否需要在决策树中为预测变量设置上限与下限？在参数式（例如线性回归）中，你必须将异常值的上限设置为 99%（或 95%）并将下限设置为 1%（或 5%），从而处理异常值。在基于树状结构的算法当中，基本不需要在决策树中设置上限与下限。
换言之，决策树对于异常值具有鲁棒性。树算法会在同数值基础上拆分数据点，因此离群值不会对拆分产生太大影响。实际上，如何处理取决于您的超参数设置方式。
6. 我的树中没有多少变量，或者变量数极少这可能代表大家把复杂度参数（cp）设置得太高。复杂度参数（cp）代表的是每个节点所需要的最小模型改进。你可以借此拆分节点来改善相对误差量。如果对初始根节点进行拆分，且相对误差从 1.0 降至 0.5，则根节点的 cp 为 0.5。
以上就是今天的内容，希望对你有所帮助。
原文链接：Avoid These Deadly Modeling Mistakes that May Cost You a Career

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论

大纲



1. 注意变量中的“0”、“-99”或“-999”

2. 要求线性回归中的因变量符合正态假设

3. 要求线性回归中的预变量符合正态假设

4. 是否需要在决策树中做出分布假设？

5. 是否需要在决策树中为预测变量设置上限与下限？

6. 我的树中没有多少变量，或者变量数极少



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部