文章

Python 首批细教程 · 06B：用一个小例子彻底看懂 kNN 怎么分类

#276 · 2026-05-13 · Python 教程拆解

Reading Path / PYTHON 先抓主张，再转成行动 #276 · Python 教程拆解 · 读完进入产品或下一篇

阅读数据加载中… 点赞数据加载中…

生成页数

幻灯片语言

提炼重点 / 自定义指令 (可选)

承上启下：在上一篇《Python 首批细教程 · 06A：用 Pandas 做一次真正的数据清洗和统计》中，我们使用 pandas 库完成了空值填充、分组汇总与数据透视等统计分析实战。但真正的智能应用不仅仅在于统计过去，更在于预测未来。本篇中，我们将进入经典的机器学习算法实战，使用业界通用的 scikit-learn 机器学习库，通过一个极简的二维电影分类案例，彻底理清 k 近邻（kNN）分类器在空间距离计算、近邻投票与 k 值选型上的底层机制。

对应原仓库：Day81-90/82.k最近邻分类.md

已提供可运行示例：/tutorial-assets/python-100-days/06b-knn-movie-demo/（站点源码路径：blog-src/static/tutorial-assets/python-100-days/06b-knn-movie-demo/）

原仓库这一段把概念说得很清楚：找最近的 k 个邻居，然后投票。

这一篇我们把它缩成一个最小可运行例子。

训练集

假设我们有两类电影：

爱情片：动作少、吻戏多
动作片：动作多、吻戏少

代码

from sklearn.neighbors import KNeighborsClassifier


X = [
    [2, 9],
    [1, 8],
    [8, 1],
    [9, 2],
]
y = ["romance", "romance", "action", "action"]

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X, y)

sample = [[3, 7], [8, 2]]
pred = model.predict(sample)
print(pred.tolist())

安装：

pip install scikit-learn

运行后你会看到一条更偏爱情、一条更偏动作的预测结果。

这里到底发生了什么

对于 sample = [3, 7]：

它会和训练集每个点计算距离；
选出最近的 3 个点；
看这 3 个点里哪个类别更多；
多数投票就是预测结果。

这就是原仓库里讲的 kNN 核心机制。

k 值为什么重要

原仓库特别强调了一点：k 太小容易过拟合，太大又会被远处样本干扰。

你自己可以试：

for k in [1, 3]:
    model = KNeighborsClassifier(n_neighbors=k)
    model.fit(X, y)
    print(k, model.predict([[4, 6]]).tolist())

进阶任务

自己再补两条训练数据。
把类别改成 comedy / horror 试试。
查询 train_test_split，把样本拆成训练集 / 测试集。

常见坑

k 大于样本数量。
特征量纲差太大却不做缩放。
以为“训练”很复杂，其实 kNN 恰恰是惰性学习。

💡 下一篇预告：借助 kNN 分类器，我们迈出了数据智能预测的关键一步。但无论我们的算法逻辑或数据模型多么先进，如果无法以标准化、规范化的方式交付给团队或用户，它就只能是停留在开发者本机的实验脚本。在下一篇《Python 首批细教程 · 07A：别只会写代码，做一遍 Git + README + Docker 的最小交付》中，我们将重新回到工程收官的视角，学习如何编写规范的 README 文档、组织 Git 提交、以及通过 Dockerfile 进行容器化打包，完成一次真正可以交付给生产环境的标准发布。