系列导读:本系列共15篇,系统覆盖机器学习从基础到工程化的完整知识体系。前三篇我们完成了基础概念和监督学习(回归与分类)的探讨,从本篇开始进入无监督学习的领域。聚类是无监督学习中最核心、最基础的任务——当数据没有标签时,如何发现其中隐藏的结构和模式?K-Means、层次聚类、DBSCAN、高斯混合模型将给出各自的答案。
一、聚类问题概述
1.1 什么是聚类
聚类(Clustering)是一种无监督学习方法,其目标是将数据集中的样本划分为若干个组(簇/Cluster),使得同一簇内的样本尽可能相似,不同簇间的样本尽可能相异。与监督学习中的分类不同,聚类不需要预先定义类别标签,也不需要标注好的训练数据——它完全依赖数据自身的特征分布来发现内在结构。
从数学角度定义:给定数据集D={ x1,x2,…,xn}D = \{x_1, x_2, \ldots, x_n\}D