国内旅行做行程网站,wordpress模板是什么意思,汇米网站建设,怎么做网站弹幕机器学习_KNN算法
K-近邻#xff08;K-Nearest Neighbors#xff0c;简称KNN#xff09;算法是一种基本的机器学习分类和回归算法
其核心思想是#xff1a;如果一个样本在特征空间中的k个最相似#xff08;即特征空间中最邻近#xff09;的样本中的大多数属于某一个类别…机器学习_KNN算法
K-近邻K-Nearest Neighbors简称KNN算法是一种基本的机器学习分类和回归算法
其核心思想是如果一个样本在特征空间中的k个最相似即特征空间中最邻近的样本中的大多数属于某一个类别则该样本也属于这个类别 文章目录 机器学习_KNN算法1. KNN算法的基本步骤2. KNN算法的关键参数3. KNN算法的优缺点4. KNN算法的应用场景5. 示例鸢尾花分类 1. KNN算法的基本步骤
计算距离对于给定数据集中的每一个数据点计算其与待分类数据点的距离如欧氏距离、曼哈顿距离等找到k个近邻基于计算出的距离找出与待分类数据点最近的k个数据点确定类别 若为分类问题根据这k个近邻的类别通过多数投票majority voting的方式来预测待分类数据点的类别若为回归问题待分类数据点的预测值通常是这k个近邻的平均值、中位数或其他统计量
2. KNN算法的关键参数 k值的选择k值的选择对KNN算法的性能有很大的影响。较小的k值可能导致过拟合即模型对训练数据过于敏感而较大的k值可能导致欠拟合即模型过于简单无法捕捉到数据的细微变化在实际应用中通常通过交叉验证等方法来确定最优的k值 距离度量1 欧式距离 对于两个数据点 ( x ) 和 ( y )它们在 ( m ) 维空间中的坐标分别是 ( (x_1, x_2, …, x_m) ) 和 ( (y_1, y_2, …, y_m) )则它们之间的欧氏距离 ( d(x, y) ) 定义为 d ( x , y ) ∑ i 1 m ( x i − y i ) 2 d(x, y) \sqrt{\sum_{i1}^{m} (x_i - y_i)^2} d(x,y)i1∑m(xi−yi)2 曼哈顿距离 对于n维空间中的两个点A(x1, x2, …, xn)和B(y1, y2, …, yn)曼哈顿距离的计算公式为 d ∣ x 1 − y 1 ∣ ∣ x 2 − y 2 ∣ . . . ∣ x n − y n ∣ d |x1 - y1| |x2 - y2| ... |xn - yn| d∣x1−y1∣∣x2−y2∣...∣xn−yn∣ 切比雪夫距离 对于两个n维向量A(x1, x2, …, xn)和B(y1, y2, …, yn)它们之间的切比雪夫距离的计算公式为 d m a x ( ∣ x 1 − y 1 ∣ , ∣ x 2 − y 2 ∣ , . . . , ∣ x n − y n ∣ ) d max(|x1 - y1|, |x2 - y2|, ..., |xn - yn|) dmax(∣x1−y1∣,∣x2−y2∣,...,∣xn−yn∣)
3. KNN算法的优缺点
优点: 原理简单易于理解和实现无需估计参数无需训练适合对稀有事件进行分类 缺点 当数据集很大时计算量大存储开销大对数据的局部结构非常敏感在决策分类时k值的选取对结果的影响很大可解释性较差无法给出像决策树那样的规则
4. KNN算法的应用场景
KNN算法由于其简单性和有效性在许多领域都有广泛的应用如文本分类、图像识别、推荐系统等
然而由于其计算复杂度和对局部结构的敏感性KNN算法可能不适用于大规模数据集或高维数据集在这些情况下可能需要使用更复杂的机器学习算法或降维技术来处理数据
5. 示例鸢尾花分类
详见博主另一篇博客KNN、NB、SVM实现鸢尾花分类