news 2026/6/10 7:21:33

自监督与半监督:AI学习的两种智慧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
自监督与半监督:AI学习的两种智慧

总结区分

  • 自监督(Self-Supervised Learning)
    没有人工标注,标签是从数据自己构造出来的

  • 半监督(Semi-Supervised Learning)
    一小部分有人工标注 + 大量无标注数据


一、自监督是什么?

核心思想

用数据本身来“出题考自己”

不找人打标签,而是:

  • 从原始数据里人为制造一个任务

  • 这个任务的“正确答案”可以自动得到

模型通过做这些“自问自答”的任务学到有用表示。


典型例子

1.NLP(文本)
  • 任务:预测被遮住的词

我今天去___吃饭→ 正确答案:食堂

BERT、GPT 的预训练都是自监督

2.图像
  • 遮住一块图像,让模型补全

  • 把图像打乱顺序,让模型还原


3.对比学习(现在很火)
  • 同一张图片的不同增强 → 应该“相似”

  • 不同图片 → 应该“不同”

SimCLR、MoCo 都是自监督

二、半监督是什么?

核心思想

用少量标注数据带着大量无标注数据一起学

现实中:

  • 标注很贵

  • 无标注数据很多

那就:

  • 先用少量标注数据“指路”

  • 再把无标注数据也利用起来


典型例子

图像分类
  • 100 张图片有标签(猫 / 狗)

  • 10 万张图片没标签

方法:

  1. 先用有标签数据训练模型

  2. 给无标签数据“猜标签”

  3. 把猜得很准的也当作训练数据(伪标签)


常见方法

  • Pseudo Label(伪标签)

  • Consistency Regularization(一致性约束)

  • FixMatch / Mean Teacher


特点总结

  • 用到了人工标注

  • 提升标注效率

  • 依赖初始标签质量

  • 任务通常是明确的下游任务


三、自监督 vs 半监督(对照表)

维度自监督半监督
是否需要人工标签需要(少量)
标签来源数据自己构造人工 + 模型预测
主要用途预训练 / 表征学习具体任务训练
常见位置训练前训练中
代表模型BERT、SimCLRFixMatch
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 16:52:24

10/0.4kV变电站电气部分设计

10/0.4kV变电站电气部分设计 一、设计背景与意义 1004kV特高压变电站作为电力系统骨干网架的核心节点,承担着跨区域大容量电力输送、电网互联及负荷分配的关键功能,其电气部分设计直接决定电网运行的安全性、稳定性与经济性。随着新能源发电规模的持续扩…

作者头像 李华
网站建设 2026/5/28 14:14:24

如何在linux系统上安装微信

1、在linux系统的火狐浏览器中搜索、下载微信选linux版本选X86下载完成后,微信位于”下载“文件夹:打开linux终端,$cd 下载$sudo dpkg -i WeChatLinux_x86_64.deb安装完成后,在linux终端输入(字母全部小写)…

作者头像 李华
网站建设 2026/5/28 13:02:36

【26美赛A题】2026美赛数学建模(MCM/ICM)思路解析及代码分享

【26美赛A题】2026美赛数学建模赛(MCM/ICM)思路解析及代码分享 订阅即可获取2026年及历年数学建模笔记,万字题解内容,且结合全球最新AI技术辅助,帮你轻松攻坚竞赛!后续还将持续发布华为杯、高教社杯、华数杯…

作者头像 李华
网站建设 2026/5/29 1:36:57

计算机毕业设计之springboot基于JAVA WEB的宠物寄养管理系统

随着信息时代的来临,过去的传统管理方式缺点逐渐暴露,对过去的传统管理方式的缺点进行分析,采取计算机方式构建宠物寄养管理系统。本文通过课题背景、课题目的及意义相关技术,提出了一种宠物商品、宠物店信息、宠物信息等于一体的…

作者头像 李华