机器学习系列04 无监督学习 — 聚类篇-开发者社区

系列导读：本系列共15篇，系统覆盖机器学习从基础到工程化的完整知识体系。前三篇我们完成了基础概念和监督学习（回归与分类）的探讨，从本篇开始进入无监督学习的领域。聚类是无监督学习中最核心、最基础的任务——当数据没有标签时，如何发现其中隐藏的结构和模式？K-Means、层次聚类、DBSCAN、高斯混合模型将给出各自的答案。

一、聚类问题概述

1.1 什么是聚类

聚类（Clustering）是一种无监督学习方法，其目标是将数据集中的样本划分为若干个组（簇/Cluster），使得同一簇内的样本尽可能相似，不同簇间的样本尽可能相异。与监督学习中的分类不同，聚类不需要预先定义类别标签，也不需要标注好的训练数据——它完全依赖数据自身的特征分布来发现内在结构。

从数学角度定义：给定数据集D={ x1,x2,…,xn}D = \{x_1, x_2, \ldots, x_n\}D

电力电子系统中电阻器脉冲负载特性与选型指南

1. 脉冲负载基础与电阻器选型挑战在电力电子系统中，脉冲负载处理能力是衡量电阻器可靠性的关键指标。不同于稳态工况下的功率耗散，脉冲负载会在极短时间内（微秒至毫秒级）产生数十甚至数百倍于额定功率的瞬时能量冲击。这种瞬态过…

李华

Linux RX报文处理全流程解析

Linux网络协议栈接收（RX）报文处理流程是一个从硬件中断到应用层Socket的复杂过程，其核心在于通过软中断和NAPI机制在中断上下文和内核进程上下文之间取得平衡，以实现高吞吐量。整个过程可以概括为：硬件中断触发 -> …

李华

Tcl实战精讲：从高频疑问到高效脚本

1. Tcl入门：从疑惑到清晰第一次接触Tcl时，我也被它独特的语法搞得一头雾水。记得当时为了调试一个简单的脚本，花了整整一个下午研究为什么命令替换总是不按预期工作。后来才发现，问题出在对grouping的理解上。Tcl中有两种groupin…

李华

别再折腾群晖自带DDNS了！试试这个Docker神器，支持Cloudflare等6大服务商，稳定又省心

告别传统DDNS：用Docker容器打造全能动态域名解析方案每次遇到群晖内置DDNS服务突然失效，或是第三方套件无法支持你偏好的域名服务商时，那种抓狂的感觉我太熟悉了。作为一位长期管理多台NAS的运维工程师，我发现传统解决方案就像用…

李华

2026年盘点：vi家族编辑器全解析，哪款是你的菜？

vi家族编辑器资讯发布哇塞，今天要给大家介绍超厉害的vi家族编辑器相关资讯啦！对Linux用户的调查显示，vi家族编辑器可是最受欢迎的呢。vi编辑器是基于终端的文本编辑器，历史能追溯到1977年。为啥这么多人选它呢？因为一旦…

李华

别只装客户端！RoboMaster机甲大师赛前必做的电脑环境检查清单（含驱动版本确认）

别只装客户端！RoboMaster机甲大师赛前必做的电脑环境检查清单（含驱动版本确认） 距离RoboMaster机甲大师赛开赛只剩48小时，作为战队技术负责人，你反复检查了机器人硬件状态，却可能忽略了最关键的变量——那台…

李华