分类算法-k近邻算法（需要做标准化处理) – 不爱学习的硕硕

撰写 icenturyw 于 2019年 3月 18日 2019年 3月 18日 Python / 机器学习

问题

K取值多大？有什么影响
- K取值太大：容易受K值数量（类别）波动
- K取值太小：容易受到异常点影响
性能问题

优缺点

优点：
- 简单，易于理解，易于实现，无需估计参数，无需训练
缺点
- 懒惰算法，对测试样本分类时的计算量大，内存开销大
- 必须指定K值，K值选择不当则分类精度不能保证
使用场景：
- 小数据场景，几千-几万样本，具体场景具体业务去测试

示例流程

数据集的处理
分割数据集
对数据集进行标准化
estimator流程进行分类预测

定义：

如果一个样本在特征空间中的k个最近似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

计算距离公式（欧式距离）

K-近邻算法API

sklearn.neighbors.KNeighborsClassifier()

k-近邻算法案例 Facebook V：预测Check Ins 问

发表回复取消回复

要发表评论，您必须先登录。