K近邻（KNN）算法完全指南：从原理到实战，一篇就够了！

闵浮龙

628人浏览 · 2026-04-03 21:11:37

闵浮龙 · 2026-04-03 21:11:37 发布

引言：当“物以类聚，人以群分”遇上机器学习

想象一下，你搬进了一个新小区，想快速了解这里的居住氛围。最直接的办法是什么？当然是看看你的邻居们——如果周围邻居安静有礼、环境整洁，那么这个小区的整体氛围大概率不会差；如果邻居们深夜喧哗、环境杂乱，你可能就得重新考虑自己的选择了。

这个朴素的生活直觉，恰好道出了K近邻（K-Nearest Neighbors，简称KNN）算法的核心哲学：“物以类聚”。作为机器学习家族中最直观、最容易理解的算法之一，KNN在众多分类和回归任务中都有着广泛的应用。今天，我们就来一场从原理到实战的KNN深度之旅！

一、KNN算法：机器学习界的“懒人”哲学家

K近邻算法最早由Cover和Hart于1968年提出，属于监督学习中的一种经典方法。它的核心思想非常直白：对于一个未知样本，我们只需要在训练数据集中找出与其最相似的K个样本，然后让这些“邻居”通过投票或取平均值的方式，来决定这个新样本的类别或数值。

KNN在技术圈有个响当当的称号—— “懒惰学习（Lazy Learning）” 的代表。为什么叫“懒惰”？因为它压根没有传统意义上的“训练”阶段。其他算法需要花大量时间训练模型，而KNN只是简单地把所有训练数据保存下来。直到需要预测一个新数据点时，它才临时“跑起来”，去计算这个新点与所有已存储点的距离，找出最近的K个邻居，然后根据这些邻居的信息做出预测。因此，KNN的训练几乎是瞬时的（就是保存数据），但预测相对较慢（需要计算大量距离）。

KNN的能力不止于分类。在分类任务中，K个邻居通过“多数投票”来决定新样本的类别；在回归任务中，则取这K个邻居目标值的平均值作为预测结果。

K值：决定模型命运的“关键角色”

K值的选择直接影响着模型的性能表现。理解K值的影响，是掌握KNN的第一步。

如果把K值设得过小（比如K=1），模型会变得异常“敏感”。想象一下，你只问一个邻居的意见，结果碰巧这个邻居是个特例，你的判断就会出错。在机器学习中，这叫做 “过拟合” ——模型记住了训练数据中的噪声和特例，决策边界变得异常曲折，方差高而偏差低。

如果把K值设得过大，模型又可能变得过于“迟钝”。就好比你不光问了邻居，还问了整个小区甚至隔壁小区的人，真正能反映你家周边情况的“本地信息”被稀释了。这就是 “欠拟合” ——模型过于平滑，忽略了数据中的真实模式。

那么如何找到那个“刚刚好”的K值呢？交叉验证是最可靠的方法。通常建议从一个较小的范围开始尝试，比如K=1到20，通过交叉验证观察模型在不同K值下的表现，找到验证集误差最小的那个K值。K=1通常作为模型复杂度的性能上限参考，但极易过拟合，一般不会作为最终选择。

二、距离度量：衡量“远近”的数学标尺

KNN的核心步骤之一是“找邻居”，而要找到邻居，首先得定义什么是“近”。距离度量就是这把衡量相似度的尺子。

2.1 欧氏距离（Euclidean Distance）

这是我们最熟悉的“直线距离”，也是KNN中最常用的距离度量。在二维平面中，它就是两点之间的直线长度。推广到n维空间，公式如下：

d(x,y)=∑i=1n(xi−yi)2d(x,y)=∑i=1n(xi−yi)2

欧氏距离的直观性是其最大优势——符合人们对“距离”的本能认知。但它有一个隐含假设：所有维度的重要性是相等的，且数据在各维度上的尺度应该是统一的。如果特征的量纲差异很大（比如一个特征以“米”为单位，另一个以“千克”为单位），欧氏距离就会严重失真。

2.2 曼哈顿距离（Manhattan Distance）

曼哈顿距离又名“城市街区距离”，灵感来源于纽约曼哈顿那种棋盘式的街道布局。想象一下，你从城市的一个街角到另一个街角，只能沿着网格状的街道行走，不能斜穿——这段实际行走的路径长度就是曼哈顿距离。

d(x,y)=∑i=1n∣xi−yi∣d(x,y)=∑i=1n∣xi−yi∣

相比欧氏距离，曼哈顿距离对单个维度上的“跳跃”更为宽容。当数据的各个特征相对独立时，曼哈顿距离往往能获得更好的效果。

2.3 切比雪夫距离（Chebyshev Distance）

切比雪夫距离的定义非常独特——它取的是两点在各坐标轴上差值的最大值：

d(x,y)=max⁡i∣xi−yi∣d(x,y)=maxi∣xi−yi∣

这个距离有一个非常生动的比喻：国际象棋中的国王，可以向八个方向（横、竖、斜）任意移动一格。国王从一点到另一点所需的最少步数，恰好等于两点之间的切比雪夫距离。

2.4 闵可夫斯基距离（Minkowski Distance）——统一这三种距离的“家族”

上面介绍的三种距离，实际上可以统一到一个更广义的公式中——闵可夫斯基距离：

d(x,y)=(∑i=1n∣xi−yi∣p)1/pd(x,y)=(∑i=1n∣xi−yi∣p)1/p

通过调整参数p，它可以轻松“变身”为前面三种经典距离：

p = 1时，就是曼哈顿距离；
p = 2时，就是欧氏距离；
p → ∞时，就趋近于切比雪夫距离。

闵可夫斯基距离的p值越大，距离计算就越关注那些差异最大的维度（即“短板效应”越明显）；p值越小，则对所有维度的差异都更为敏感。

在实际应用中应该选择哪种距离？这取决于你的数据特点。欧氏距离是最通用的选择，曼哈顿距离适合特征较为独立、维度较高的场景，而切比雪夫距离适用于需要关注“最差情况”差异的问题。

三、数据预处理：为什么KNN必须做特征缩放？

在开始建模之前，有一个关键步骤绝对绕不开——数据预处理。尤其是对于KNN这种距离敏感的算法，特征缩放几乎是一项强制性要求。

为什么KNN对特征缩放如此敏感？

假设我们正在构建一个心脏病预测模型，其中有两个特征：“年龄”（范围约20到80岁）和“胆固醇”（范围约100到400 mg/dL）。如果不做特征缩放，直接计算欧氏距离，那么胆固醇的数值范围（变化幅度约300）会完全压制年龄的变化（变化幅度约60），导致年龄特征在距离计算中几乎被“无视”。换句话说，在KNN的眼中，这个患者和那个患者之间的距离，几乎只由胆固醇水平决定——这显然不是我们想要的结果。

3.1 归一化（Min-Max Scaling）

归一化的目标是将数据按比例缩放到一个固定的区间，通常是[0, 1]或[-1, 1]：

x′=x−xminxmax−xminx′=xmax−xminx−xmin

归一化的优点在于简单直观，输出范围有界，且保持原始数据的分布形状。但它也有明显的弱点——对异常值极其敏感。如果数据中存在离群点，min和max会被这些离群点带偏，导致大部分正常数据被压缩到一个非常狭窄的区间内，失去了应有的区分度。

归一化特别适合数据分布有明显边界、且不包含显著异常值的场景，如图像像素值的处理（像素值通常在0到255之间，边界清晰）。

3.2 标准化（Z-Score Scaling）

标准化将数据调整为均值为0、标准差为1的标准分布：

x′=x−μσx′=σx−μ

标准化的最大优势在于鲁棒性。相比归一化，它对异常值的敏感度要低得多，因为均值和标准差虽然也会受异常值影响，但远不如min/max那样脆弱。标准化后的数据分布保持正态形状，只调整位置和尺度，不改变分布的基本特征。

在大多数实际场景中，标准化比归一化更为通用，尤其是在数据分布未知或存在轻微异常值时。对于KNN这类距离敏感的算法，通常建议优先尝试标准化。

3.3 归一化 vs 标准化：如何选择？

这个问题没有绝对的答案，需要根据数据特性和模型需求来判断。一个实用的建议是：如果数据没有明显的边界，或者不确定数据的分布情况，优先使用标准化；如果数据有明确的物理边界（如图像像素值）且不存在严重异常值，归一化也是不错的选择。

特别提醒：在KNN中，特征缩放不是“锦上添花”，而是“雪中送炭”——不做缩放的KNN模型几乎一定会表现出糟糕的性能，因为距离计算会被大范围特征完全主导。

四、实战：用KNN预测心脏病风险

理论讲完了，是时候动手了。我们使用Kaggle上公开的Heart Disease数据集，通过一个完整的机器学习流程，从数据加载、特征工程、模型训练到超参数调优，逐步构建一个心脏病风险预测模型。

4.1 数据集一览

该数据集包含1025条患者记录，每条记录包含13个医学特征和一个目标变量——是否患有心脏病（0表示未患病，1表示患病）。这些特征涵盖了患者的多方面信息：

年龄：连续值，从20多岁到80多岁不等
性别：0=女性，1=男性
胸痛类型：4种分类（0=典型心绞痛，1=非典型心绞痛，2=非心绞痛，3=无症状）
静息血压：连续值，单位mmHg
胆固醇：连续值，单位mg/dL
空腹血糖：1表示大于120mg/dL，0表示小于等于120mg/dL
静息心电图结果：3种分类（0=正常，1=ST-T异常，2=可能左心室肥大）
最大心率：连续值
运动性心绞痛：1=有，0=无
运动后ST下降：连续值
峰值ST段斜率：3种分类（0=向上，1=水平，2=向下）
主血管数量：0到3
地中海贫血：4种分类（0=正常，1=固定缺陷，2=可逆缺陷）
是否患有心脏病：目标标签，0=否，1=是

4.2 数据加载与初步探索

import pandas as pd

# 加载数据集
heart_disease = pd.read_csv("data/heart_disease.csv")

# 查看数据信息
heart_disease.info()
heart_disease.head()

这里有几个关键步骤需要注意：

缺失值处理：在加载数据后，务必使用info()方法检查是否存在缺失值。如果发现缺失值，可以通过dropna()删除缺失行，或根据业务逻辑进行填充。本数据集中没有缺失值，这一步可以跳过。
数据类型检查：确保各列的数据类型正确——数值型特征应该是int或float，类别型特征可能需要单独处理。

4.3 数据集划分：训练集与测试集

为了避免模型“作弊”（即在测试时“看到”了训练数据），我们需要在训练开始前就将数据划分为独立的训练集和测试集。

from sklearn.model_selection import train_test_split

# 划分特征和标签
X = heart_disease.drop("是否患有心脏病", axis=1)
y = heart_disease["是否患有心脏病"]

# 按7:3比例划分训练集和测试集，固定随机种子确保结果可复现
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

这里的test_size=0.3表示30%的数据用于测试，70%用于训练。random_state参数固定随机数种子，确保每次运行的结果一致。

4.4 特征工程：让数据“说得清”

本数据集中的特征可以分为三大类型，每种类型需要采用不同的处理策略：

数值型特征（年龄、静息血压、胆固醇、最大心率、运动后ST下降、主血管数量）：需要进行标准化处理，使它们处于相同的尺度。
类别型特征（胸痛类型、静息心电图结果、峰值ST段斜率、地中海贫血）：不能直接当作数值处理，因为算法会错误地认为类别之间有顺序关系（例如，胸痛类型=2比胸痛类型=1“更远”）。需要使用独热编码（One-Hot Encoding）将其转换为二元向量。
二元特征（性别、空腹血糖、运动性心绞痛）：本身就具有“0/1”的数值意义，可以直接使用。

为什么要做独热编码？

类别型特征如果用整数编码（0, 1, 2, 3），KNN在计算距离时会产生一个严重的逻辑错误：它会认为胸痛类型=0和胸痛类型=1之间的“差异”是1，而胸痛类型=0和胸痛类型=3之间的“差异”是3，暗示后者更“远”。然而，这四种胸痛类型之间本质上没有顺序关系——它们只是不同的类别，彼此平等。

独热编码完美解决了这个问题：为每个类别创建一个独立的二元特征，只有当前类别对应的特征值为1，其余为0。这样，任意两个不同类别之间的距离都是相同的，不会引入虚假的顺序关系。

避免多重共线性：drop="first"的妙用

在独热编码中，有一个容易忽视但非常重要的细节：如果为4个类别生成4个独热特征，这4个特征之间会产生完美的线性相关关系——它们的和恒等于1。这种关系称为多重共线性，会导致特征矩阵存在精确的线性依赖，进而影响模型参数的稳定性。

解决方法很简单：在独热编码时设置drop="first"，删除每个类别特征的第一列。对于4个类别的特征，只保留3个独热特征。这样，当这3个特征全为0时，就自然代表被删除的那个类别，完美打破了共线性关系。

对于KNN这类非参数模型，多重共线性不会像线性模型那样导致严重问题，但删除冗余特征仍然有助于减少计算量、提升效率。

使用ColumnTransformer统一处理

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

numerical_features = ["年龄", "静息血压", "胆固醇", "最大心率", "运动后ST下降", "主血管数量"]
categorical_features = ["胸痛类型", "静息心电图结果", "峰值ST段斜率", "地中海贫血"]
binary_features = ["性别", "空腹血糖", "运动性心绞痛"]

preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numerical_features),
        ("cat", OneHotEncoder(drop="first"), categorical_features),
        ("binary", "passthrough", binary_features),
    ]
)

x_train = preprocessor.fit_transform(x_train)  # 计算统计信息并转换训练集
x_test = preprocessor.transform(x_test)        # 使用训练集统计信息转换测试集

关键点：在标准化和独热编码中，统计信息（均值、标准差、类别编码映射）只能在训练集上计算，然后应用到测试集上。如果在测试集上重新计算，会导致数据泄露，让评估结果过于乐观。

4.5 模型训练与初步评估

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, y_train)

# 计算测试集准确率
accuracy = knn.score(x_test, y_test)
print(f"模型准确率: {accuracy:.3f}")

这里我们先用K=3作为初始选择，得到一个初步的性能基准。

4.6 超参数调优：用网格搜索找到最优K值

K值的选择对模型性能影响显著，手动试错效率低下。网格搜索（Grid Search）提供了一种系统化的超参数调优方法——遍历预设的超参数组合，通过交叉验证评估每一组的表现，自动选出最优配置。

from sklearn.model_selection import GridSearchCV

knn = KNeighborsClassifier()

# 定义需要搜索的超参数空间
param_grid = {"n_neighbors": list(range(1, 11))}  # 搜索K=1到10

# 使用10折交叉验证进行网格搜索
knn = GridSearchCV(estimator=knn, param_grid=param_grid, cv=10)

knn.fit(x_train, y_train)

# 查看搜索结果
print(pd.DataFrame(knn.cv_results_))   # 所有参数组合的交叉验证结果
print(knn.best_estimator_)             # 最佳模型配置
print(knn.best_score_)                 # 最佳交叉验证得分

# 使用最佳模型重新评估
knn = knn.best_estimator_
print(knn.score(x_test, y_test))

这里使用了10折交叉验证（cv=10）：训练数据被分成10份，轮流用其中9份训练、1份验证，最终得分取10次验证的平均值。这种方法的评估结果比单次划分更稳定可靠。

4.7 模型持久化保存

训练好的模型可以保存到磁盘，以便后续直接加载使用，避免重复训练。

import joblib

# 保存模型
joblib.dump(knn, "knn_heart_disease.joblib")

# 加载模型
knn_loaded = joblib.load("knn_heart_disease.joblib")

# 使用加载的模型进行预测
y_pred = knn_loaded.predict(x_test[10:11])
print(y_test.iloc[10], y_pred)

五、KNN的优缺点与适用场景

KNN的优势

简单直观，无需假设。KNN不对数据分布做任何先验假设，这使得它在数据分布复杂或难以参数化的情况下表现出色。KNN“没有显式训练过程”的特性也让它在某些场景下极具吸引力——你可以随时向训练集中添加新数据，无需重新训练模型。

多任务通用。KNN天生支持分类和回归两种任务，这在机器学习算法中并不多见。通过简单的决策规则切换（多数投票 vs. 取平均值），KNN就能适应不同的任务需求。

KNN的局限与改进方向

计算复杂度高。KNN最大的痛点是预测时需要计算新样本与所有训练样本的距离，当训练集规模庞大时，预测速度会严重下降。这正是它被称为“懒惰学习”的代价——训练快，但预测慢。

为解决这个问题，学界和工业界提出了多种优化方案：

KD-Tree和Ball Tree：通过构建树形数据结构对空间进行划分，在搜索近邻时可以快速剪枝、跳过远距离区域，从而大幅减少距离计算量。
加权KNN（W-kNN） ：给不同距离的邻居分配不同的权重——距离越近的邻居权重越高，距离越远的邻居权重越低。这种方法不仅提升了准确率，还增强了对噪声和异常值的鲁棒性。

对噪声敏感。KNN直接依赖原始数据点，训练集中的噪声数据会直接影响预测结果。不过，加权KNN等改进方案已经能在一定程度上缓解这个问题。

维度灾难。随着特征维度的增加，数据在高维空间中变得极度稀疏，“近邻”的概念逐渐失去意义——所有点之间的距离都变得差不多大。这是KNN在高维数据上的根本性挑战。

结语：用简单的思路解决复杂的问题

KNN算法的魅力恰恰在于它的简单——一个高中生都能理解的“看邻居”思想，经过数学形式化之后，竟能解决从手写数字识别到医疗诊断等一系列复杂问题。它提醒我们，在人工智能这个充满复杂模型的领域，简单的解决方案往往同样有效，甚至更加优雅。

当然，KNN并非万能灵药。它的计算开销和数据敏感度决定了它最适合中等规模、特征维度适中、数据分布有明显聚类结构的场景。在面对海量数据或超高维度时，可能需要考虑其他算法或KNN的改进版本。

无论你是机器学习的新手，还是经验丰富的数据科学家，KNN都值得放入你的工具箱。它不仅是一个实用的算法，更是一座理解机器学习核心概念——距离、相似性、局部性——的桥梁。

下次当你面对一个分类问题，不妨问问自己：我的K个“邻居”会怎么说？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RT-DETR最新创新改进系列：从YOLO26到RT-DETR的无缝迁移，先搭好基线实验底座，AIFI与RTDETRDecoder协同建模，速度、精度、消融一文理清！【基线先行，改进有据】

本文为 RTDETR 改进系列纯净发布稿，写法采用模块化技术博文形式：先讲痛点，再讲结构，再给配置、训练方式、实验表格和注意事项。全文仅保留技术正文，便于直接发布。摘要本文围绕 RTDETRl 基线展开。该版本属于基线配置方向，目标是在 RTDETR 端到端检测框架中完成可复现、可对照、可训练的结构设计。相比只给模型文件，本文更关注为什么这样改、改在什么位置、如何训练、如何做消融，以及实

AtomGit开源社区

DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现

无论是复杂问题的解答，还是创意内容的生成，都能精准把握用户需求，提供高质量的输出。DeepSeek V4不仅是技术的典范，更是未来人工智能发展的风向标,接下来我将从：代码生成、逻辑推理、数学解题、长文本理解、多模态识别等维度，横向对比 DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现。GPT-4o在表格数据提取上更精准，V4则擅长恢复破损文档的代码缩进结构。在真