news 2026/6/20 16:38:30

一文搞懂K-Means 聚类!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一文搞懂K-Means 聚类!

推荐直接网站在线阅读:aicoting AI算法面试学习在线网站

什么是聚类?

聚类(Clustering)是一种典型的无监督学习方法,其目标是在没有标签信息的情况下,将数据样本按照相似性划分为若干簇,使得同一簇内的样本相似度高,不同簇之间差异显著。常见方法包括基于划分的 K-Means、基于层次的 层次聚类、以及基于密度的 DBSCAN、OPTICS 等。聚类广泛应用于用户分群、市场细分、文本主题发现、图像分割等任务,是数据挖掘和探索性分析中的重要工具。

K-Means 聚类

K-Means 是最经典的聚类算法之一,属于基于划分(Partition-based)的聚类方法。它通过迭代优化目标函数,将数据划分为 K 个簇,使得同簇内样本之间相似度最大化,而不同簇之间相似度最小化。一个簇说白了就是一组相同类别的东西,只是在这个方法里起了个名字叫簇,比如苹果,香蕉,橘子属于水果那一簇,彭于晏,刘亦菲和你们属于帅哥美女那一簇。由于其简单、高效,K-Means 在数据挖掘、文本分析、图像分割等领域被广泛应用。

K-Means 的目标是最小化簇内平方误差(Within-Cluster Sum of Squares, WCSS),即:

J = ∑ i = 1 K ∑ x ∈ C i ∥ x − μ i ∥ 2 J = \sum_{i=1}^{K} \sum_{x \in C_i} \| x - \mu_i \|^2J=i=1KxCixμi2

其中:

  • K KK:簇的个数
  • C i C_iCi:第i ii个簇
  • μ i μ_iμi:簇C i C_iCi的质心(均值向量)
  • ∥ x − μ i ∥ 2 \| x - \mu_i \|^2xμi2:样本点与簇中心的欧式距离 K-Means的核心思想就是不断更新簇划分与质心,直到收敛(目标函数不再显著下降)。

K-Means的算法流程也很容易理解:

  1. 初始化:随机选择K KK个样本作为初始质心。
  2. 分配样本:将每个样本分配到距离最近的簇中心。
  3. 更新质心:对每个簇,计算所有样本的均值作为新的质心。
  4. 迭代:重复步骤 2-3,直到簇划分不再变化或目标函数收敛。

下面基于Scikit-learn编写一段示例代码让咱们更好的理解一下:

from sklearn.datasets import make_blobs from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 1. 生成模拟数据 X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=42) # 2. 训练 K-Means kmeans = KMeans(n_clusters=4, random_state=42, n_init=10) y_pred = kmeans.fit_predict(X) # 3. 可视化结果 plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=30, cmap='viridis') plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c='red', marker='X', s=200, label='Centroids') plt.legend() plt.title("K-Means Clustering") plt.show()

运行结果如下,不同颜色表示不同簇,红色 X 为聚类中心。

总结环节!K-Means 作为经典的无监督学习方法,凭借其高效性和直观性,成为最常用的聚类算法之一。但在实际应用中,需要注意簇数选择、初始点敏感性以及对复杂分布的适用性问题。针对这些不足,研究者提出了 K-Means++、Mini-Batch K-Means 等改进方法,使其在大规模机器学习任务中依然具有重要地位。

最新的文章都在公众号aicoting更新,别忘记关注哦!!!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/16 13:47:15

Meta-Llama-3-8B-Instruct案例展示:打造个性化AI助手

Meta-Llama-3-8B-Instruct案例展示:打造个性化AI助手 1. 引言:为什么选择Meta-Llama-3-8B-Instruct构建对话系统? 随着大模型技术的快速演进,如何在有限算力条件下部署高性能、可交互的AI助手成为开发者关注的核心问题。Meta-Ll…

作者头像 李华
网站建设 2026/6/9 16:25:46

5分钟部署Whisper-large-v3:多语言语音识别Web服务一键启动

5分钟部署Whisper-large-v3:多语言语音识别Web服务一键启动 引言:快速构建多语言语音识别服务 在人工智能应用日益普及的今天,语音识别技术已成为智能客服、教育平台、会议记录和内容创作等场景的核心组件。OpenAI推出的Whisper系列模型凭借…

作者头像 李华
网站建设 2026/6/15 19:46:47

AI开发者必看:DeepSeek-R1-Distill-Qwen-1.5B开源部署实战推荐

AI开发者必看:DeepSeek-R1-Distill-Qwen-1.5B开源部署实战推荐 1. DeepSeek-R1-Distill-Qwen-1.5B模型介绍 DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型,通过知识蒸馏技术融合R1架构优势打造的轻量化版本。其核心设计目…

作者头像 李华
网站建设 2026/6/10 15:45:24

PDF智能提取全攻略|基于PDF-Extract-Kit镜像快速实现布局与公式识别

PDF智能提取全攻略|基于PDF-Extract-Kit镜像快速实现布局与公式识别 1. 引言:PDF内容智能提取的挑战与需求 在科研、教育、出版和企业文档处理等场景中,PDF文件作为信息传递的重要载体,广泛用于论文、报告、教材和技术手册的发布…

作者头像 李华
网站建设 2026/6/11 22:09:33

从架构到部署:AutoGLM-Phone-9B实现手机端低延迟多模态推理

从架构到部署:AutoGLM-Phone-9B实现手机端低延迟多模态推理 1. AutoGLM-Phone-9B的架构设计与核心价值 1.1 面向移动端的多模态融合挑战 随着智能终端对AI能力需求的持续增长,如何在资源受限的设备上实现高效、低延迟的多模态推理成为工程落地的关键瓶…

作者头像 李华
网站建设 2026/6/6 13:34:56

BERT智能填空避坑指南:常见问题与解决方案汇总

BERT智能填空避坑指南:常见问题与解决方案汇总 1. 引言 随着自然语言处理技术的不断演进,基于预训练模型的应用已广泛渗透到各类语义理解任务中。其中,BERT 智能语义填空服务凭借其轻量化架构与高精度推理能力,成为中文掩码语言…

作者头像 李华