编辑回复: 我之前在微信群里说过这个问题,这个主要是因为后面有个n维空间,所以我定义的两个点分别是(x1,x2,...,xn)和(y1,y2,...,yn)。所以你看到的公式是用|x1-y1|+|x2-y2|,看起来会和我们之前学到的不一样,关键还是在于对点的定义上。你能理解公式的含义即可,另外这里主要是考虑到不光是2维的空间,如果是2维,3维我可以用字母来表示,比如用x,y,z,但是更多的维度,我在文章里是会用x1,x2,...,xn来表示一个点的定义。
编辑回复: Kaggle上有些项目还是不错的
信用卡欺诈交易分类预测 https://www.kaggle.com/mlg-ulb/creditcardfraud
比特币趋势分析
https://www.kaggle.com/mczielinski/bitcoin-historical-data
宇宙中的脉冲星预测 https://www.kaggle.com/pavanraj159/predicting-a-pulsar-star
西班牙高铁票价 https://www.kaggle.com/thegurus/spanish-high-speed-rail-system-ticket-pricing
我列举了几个,Kaggle上有不少项目值得练习和研究,基本上你可以从Datasets和Kernels里面按照Hotness排序,找一下热门的项目,同时如果是初学者,有一些标签也可以参考,比如beginner, tutorial这种的。另外你也可以根据算法来检索比如:SVM, decision tree等
编辑回复: 对的,K值是个实践出来的结果,不是事先而定的
编辑回复: 一个很好的问题,回归一般是预测某个属性值,这个属性值是连续型的,而不是离散型的。如果是离散型的就变成了分类问题。比如
对于这个待测点的已知属性值,我们先计算这个待测点与已知点的距离,然后选择最近的K个点。这样也就是知道了这个待测点和哪K个已知点最接近。那么这个待测点的未知属性值就等于这K个点的该属性值的平均值
编辑回复: 这个主要是因为后面有个n维空间,所以我定义的两个点分别是(x1,x2,...,xn)和(y1,y2,...,yn)。对应的公式是用|x1-y1|+|x2-y2|。看起来会和我们之前学到的不一样,关键还是在于对点的定义上。
作者回复: 总结整理的不错
作者回复: 很好的总结
作者回复: 对的
作者回复: 有时候需要调超参数的,所以你可以使用GridSearchCV来帮你寻找最优的超参数
作者回复: 一开始都是随机的,经过多次迭代之后,分类状态就会稳定下来,我们求的是最终稳定的状态,一开始的随机状态,即使是不正确的,也没有关系
作者回复: 你可以采用手肘法来确定K值,也就是肘部对应的数值作为K的取值
作者回复: 随机选一个,不用纠结,这种情况下算哪个都是正确的
作者回复: 对的
作者回复: 可以联系运营同学,把你拉到微信群里
作者回复: 对的
作者回复: 多谢分享
作者回复: 总结的不错