news 2026/5/14 14:42:26

机器学习系列04 无监督学习 — 聚类篇

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习系列04 无监督学习 — 聚类篇

系列导读:本系列共15篇,系统覆盖机器学习从基础到工程化的完整知识体系。前三篇我们完成了基础概念和监督学习(回归与分类)的探讨,从本篇开始进入无监督学习的领域。聚类是无监督学习中最核心、最基础的任务——当数据没有标签时,如何发现其中隐藏的结构和模式?K-Means、层次聚类、DBSCAN、高斯混合模型将给出各自的答案。

一、聚类问题概述

1.1 什么是聚类

聚类(Clustering)是一种无监督学习方法,其目标是将数据集中的样本划分为若干个组(簇/Cluster),使得同一簇内的样本尽可能相似,不同簇间的样本尽可能相异。与监督学习中的分类不同,聚类不需要预先定义类别标签,也不需要标注好的训练数据——它完全依赖数据自身的特征分布来发现内在结构。

从数学角度定义:给定数据集D={ x1,x2,…,xn}D = \{x_1, x_2, \ldots, x_n\}D

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 14:42:12

电力电子系统中电阻器脉冲负载特性与选型指南

1. 脉冲负载基础与电阻器选型挑战 在电力电子系统中,脉冲负载处理能力是衡量电阻器可靠性的关键指标。不同于稳态工况下的功率耗散,脉冲负载会在极短时间内(微秒至毫秒级)产生数十甚至数百倍于额定功率的瞬时能量冲击。这种瞬态过…

作者头像 李华
网站建设 2026/5/14 14:41:07

Linux RX报文处理全流程解析

Linux网络协议栈接收(RX)报文处理流程是一个从硬件中断到应用层Socket的复杂过程,其核心在于通过软中断和NAPI机制在中断上下文和内核进程上下文之间取得平衡,以实现高吞吐量。整个过程可以概括为:硬件中断触发 -> …

作者头像 李华
网站建设 2026/5/14 14:40:26

Tcl实战精讲:从高频疑问到高效脚本

1. Tcl入门:从疑惑到清晰 第一次接触Tcl时,我也被它独特的语法搞得一头雾水。记得当时为了调试一个简单的脚本,花了整整一个下午研究为什么命令替换总是不按预期工作。后来才发现,问题出在对grouping的理解上。Tcl中有两种groupin…

作者头像 李华
网站建设 2026/5/14 14:39:15

2026年盘点:vi家族编辑器全解析,哪款是你的菜?

vi家族编辑器资讯发布哇塞,今天要给大家介绍超厉害的vi家族编辑器相关资讯啦!对Linux用户的调查显示,vi家族编辑器可是最受欢迎的呢。vi编辑器是基于终端的文本编辑器,历史能追溯到1977年。为啥这么多人选它呢?因为一旦…

作者头像 李华