极客时间-轻松学习，高效学习-极客邦

白夜置顶

2019-02-14

曼哈顿距离写错了吧？应该d=|X1-X2|+|Y1-Y2|吧

编辑回复: 我之前在微信群里说过这个问题，这个主要是因为后面有个n维空间，所以我定义的两个点分别是(x1,x2,...,xn)和(y1,y2,...,yn)。所以你看到的公式是用|x1-y1|+|x2-y2|，看起来会和我们之前学到的不一样，关键还是在于对点的定义上。你能理解公式的含义即可，另外这里主要是考虑到不光是2维的空间，如果是2维，3维我可以用字母来表示，比如用x,y,z，但是更多的维度，我在文章里是会用x1,x2,...,xn来表示一个点的定义。

 1

 6
Python

2019-02-06

老师，能不能推荐一下kaggle上谁的项目能让我们学习。

编辑回复: Kaggle上有些项目还是不错的
信用卡欺诈交易分类预测 https://www.kaggle.com/mlg-ulb/creditcardfraud
比特币趋势分析
https://www.kaggle.com/mczielinski/bitcoin-historical-data
宇宙中的脉冲星预测 https://www.kaggle.com/pavanraj159/predicting-a-pulsar-star
西班牙高铁票价 https://www.kaggle.com/thegurus/spanish-high-speed-rail-system-ticket-pricing
我列举了几个，Kaggle上有不少项目值得练习和研究，基本上你可以从Datasets和Kernels里面按照Hotness排序，找一下热门的项目，同时如果是初学者，有一些标签也可以参考，比如beginner, tutorial这种的。另外你也可以根据算法来检索比如：SVM, decision tree等



 8
Python

2019-02-06

k越少就会越拟合，越多则越不拟合。最后就是为了寻找k的数值

编辑回复: 对的，K值是个实践出来的结果，不是事先而定的



 7
FORWARD―MOUNT

2019-02-15

KNN回归，既然已经知道某部电影的位置了，也就知道接吻次数和打斗次数。还用相邻的电影做回归求接吻次数和打斗次数？
这个表示没懂。

编辑回复: 一个很好的问题，回归一般是预测某个属性值，这个属性值是连续型的，而不是离散型的。如果是离散型的就变成了分类问题。比如
对于这个待测点的已知属性值，我们先计算这个待测点与已知点的距离，然后选择最近的K个点。这样也就是知道了这个待测点和哪K个已知点最接近。那么这个待测点的未知属性值就等于这K个点的该属性值的平均值



 5
文晟

2019-02-06

老师，那几个距离公式怎么跟别处的不一样，记得课本上是x1-x2而不是x1-y1这种形式

编辑回复: 这个主要是因为后面有个n维空间，所以我定义的两个点分别是(x1,x2,...,xn)和(y1,y2,...,yn)。对应的公式是用|x1-y1|+|x2-y2|。看起来会和我们之前学到的不一样，关键还是在于对点的定义上。

 1

 4
王彬成

2019-02-22

KNN 的算法原理和工作流程是怎么样的？KNN 中的 K 值又是如何选择的？
1、kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。
2、整个计算过程分为三步：
1）计算待分类物体与其他物体之间的距离；
2）统计距离最近的 K 个邻居；
3）对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类。
3、我们一般采用交叉验证的方式选取 K 值。
交叉验证的思路就是，把样本集中的大部分样本作为训练集，剩余的小部分样本用于预测，来验证分类模型的准确性，准确率最高的那一个最终确定作为 K 值。

展开

作者回复: 总结整理的不错



 2
fancy

2019-03-02

1. KNN的算法原理
离哪个邻居越近，属性与那个邻居越相似，和那个邻居的类别越一致。
2. KNN的工作流程
首先，根据场景，选取距离的计算方式
然后，统计与所需分类对象距离最近的K个邻居
最后，K个邻居中，所占数量最多的类别，即预测其为该分类对象的类别
3. K值的选取
交叉验证的方式，即设置多个测试集，用这些测试集测试多个K值，那个测试集所预测准确率越高的，即选取其相应的K值。

展开

作者回复: 很好的总结



 1
third

2019-02-18

跟谁像，就是谁

计算距离
通过交叉验证的方法，找到较小K，准确还较高的
计算K个近邻，
跟谁多

展开

作者回复: 对的



 1
Python

2019-02-06

老师，在实际工作中，我们直接调库和调参就行了吗？

作者回复: 有时候需要调超参数的，所以你可以使用GridSearchCV来帮你寻找最优的超参数



 1
顾仲贤

2019-02-06

老师，您在KNN做回归时举例说已知分类求属性。问题是，在没有属性只知道分类的情况下，怎么求出k个近邻呢？

作者回复: 一开始都是随机的，经过多次迭代之后，分类状态就会稳定下来，我们求的是最终稳定的状态，一开始的随机状态，即使是不正确的，也没有关系



 1
Ronnyz

2019-11-14

老师，KNN中的K值选取还是得不断的尝试是吗，只是最终确定K值的选取是以K折交叉验证得出的准确度的高低来确定

作者回复: 你可以采用手肘法来确定K值，也就是肘部对应的数值作为K的取值




William～Zhang

2019-11-12

老师，请问选取k个最近的领居，看分类最多的那一类，待分类物体就属于哪一类，那请问如果，刚好k个最近领居各一半，分属于不同类，怎么办

作者回复: 随机选一个，不用纠结，这种情况下算哪个都是正确的




FeiFei

2019-07-23

1，计算待分类物和其他物体之间的距离；
2，统计距离最近的K的物体；
3，K个邻居最多的分类=待分类物的分类。

分割线

1，太小会过于拟合
2，太大会欠拟合

展开

作者回复: 对的




闫伟

2019-05-22

老师，微信群是多少呀，想进群一起学习，麻烦老师加下，vx：yw903167000

作者回复: 可以联系运营同学，把你拉到微信群里




滢

2019-04-18

KNN工作原理：计算分类物体与其它物体的距离，选取k值，获得k个邻居的属性，哪种属性最多，该类就归属于这种属性。
K值选择：交叉验证选择

作者回复: 对的




大鱼

2019-04-09

如果回归的话，怎么找到那k个相邻的点呢？除了类别，是不是还需要其他的特征来辅助，比如我是爱情电影，除了这个分类，还得有我是几级的爱情电影？




滨滨

2019-03-30

kd树的简单解释https://blog.csdn.net/App_12062011/article/details/51986805

作者回复: 多谢分享




滨滨

2019-03-30

1. KNN的算法原理
离哪个邻居越近，属性与那个邻居越相似，和那个邻居的类别越一致。
2. KNN的工作流程
首先，根据场景，选取距离的计算方式
然后，统计与所需分类对象距离最近的K个邻居
最后，K个邻居中，所占数量最多的类别，即预测其为该分类对象的类别
3. K值的选取
交叉验证的方式，即设置多个测试集，用这些测试集测试多个K值，那个测试集所预测准确率越高的，即选取其相应的K值。

展开

作者回复: 总结的不错




上善若水

2019-02-26

请问TD-IDF是什么，为啥我搜的是tf-idf,是不同的命名吗？




开心

2019-02-20

预估值就是历史的平均值，这样理解对吗？上一讲的乳腺癌的发病率是不是这样算的



