机器学习之聚类算法-KMeans-开发者社区

聚类算法，根据样本之间的相似性，将样本划分到不同的类别中。

聚类算法有：K-means聚类、层次聚类、DBSCAN聚类、谱聚类等，其中，主要以K均值K-Means算法最为常用，k-Means是一种无监督学习的聚类算法，用于将数据划分为k个互不重叠的簇（clusters）。

1. 聚类算法的核心思想

核心思想：通过迭代优化，将样本分配到最近的簇中心（质心），并更新质心位置，直到收敛。
Api应用：

# 导包 from sklearn.cluster import KMeans # 创建模型实例 model = KMeans(n_clusters=4, random_state=22) # 模型训练 estimator.fit(x) # 模型预测 pred = estimator.predict(x)

2. K-Means算法的底层流程：

1. 确定初始K中心，初始化K值，或利用K-Means++算法优化初始点的选择，让簇之间的距离尽可能远。
2. 寻找最优的质心，不断迭代、分配/更新的过程，直到收敛或达到迭代次数，使得簇内平方和达到最小值。
3. 确定最终结果，当迭代停止时，算法输出最终的K个簇和对应的质心。

3. 聚类算法的模型评估函数：

聚类算法常用的评估方法有：

SSE：误差平方和，考虑簇内距离，SSE 相对越小越好，

肘部法：下降率突然变缓时，聚类效果最好。
Api：KMeans.inertia_属性

SC： SC轮廓系数法，考虑簇内距离和簇外距离，取值为[-1, 1]，SC值越大，聚类效果越好。
Api：from sklearn.metrics import silhouette_score

通过图像可观察到n_clusters=4取到最大值；最佳值4

CH： CH轮廓系数法，考虑簇内距离和簇外距离、质心的个数，CH值越大，聚类效果越好。
Api：from sklearn.metrics import calinski_harabasz_score

通过图像可观察到n_clusters=4取到最大值；最佳值4

minhash算法

MinHash（最小哈希）算法是一种在计算机科学中用于快速估计两个集合之间相似度的算法。它由 Andrei Broder 在1997年提出，最初用于搜索引擎中网页去重和聚类。在大数据环境下，如果直接比对两个海量集合的交集和并集，计…

李华

AI智能体开发路线图：从入门到精通的全栈技能树

Agent开发者的进阶指南三阶段能力模型全解析 2026年，AI Agent已经从"技术玩具"变成了"生产力刚需"。企业招人不再问"你会不会调API"，而是问**“你能不能让Agent自主完成一个业务流程”**。这条赛道正在疯狂吸收人才&am…

李华

从“神圣巧匠”到AI问诊——工匠精神才是临床正道

中医经典《难经》中有这样一段话：“望而知之谓之神，闻而知之谓之圣，问而知之谓之工，切脉而知之谓之巧。”自古以来，人们总是对“神”“圣”“巧”充满向往，认为能够看一眼面色舌象就断病、听一下声音气味就…

李华

video设计在高层次综合设计中难题

一、hls擅长的设计 1.关于hls::stream的设计是hls擅长的 2.hls::stream这个类是hls专门创造的，也说明了它就是擅长设计流模式二、hls不擅长的video格式 1.数字图像中图像经常有vs，hs,de,这种时序接口，使用rtl其实很好设计，但是在…

李华

题解：洛谷 B4496 [GESP202603 一级] 数字替换

本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大…

李华