KNN（K-Nearest Neighbor）k个最近邻分类算法思想及原理_综合

KNN算法思想：一个样本决定分类时，依靠其最近的K样本的分类结果，来确定该样本的分类结果。
这就引出了KNN算法的三要素：K值选择、距离度量标准、分类决策规则。
距离度量标准：
KNN算法的距离度量标准常用的二维空间度量，即欧式距离：在这里插入图片描述
距离度量在p维空间的距离公式为：

当p= 1时，成为曼哈顿距离：

当p = 2时，为欧式距离。
当p = 无穷大时：

KNN算法一般都用欧式距离，但其他度量距离也可使用。
K值选择：
K值的选择对整体的算法结果会产生重大影响，K值的选择可以使用“手肘法”，即选用不同的K值，计算其loss，loss下降梯度最快的点，就是KNN算法可以考虑选用的点。
K值过大或过小都会对模型产生很大的影响。
当K值过小的时候，如K为1，则只有与输入样本距离极近的点才会对结果产生影响，而当极近的点刚好又是噪音时，则预测结果可能并不理想。K值过小会使模型产生过拟合，且模型不具备泛化。
当K值过大时，模型会简单，输入样本会偏向于输出训练实例中多的类。
分类决策规则：
多数表决法：即当输入样本K近邻的训练实例中，n个属于1，k-n属于2，n>k-n，则预测结果为1。