news 2026/5/10 5:15:36

工业AI实战:DNN、CNN与SVM在串联电弧故障检测中的对比与嵌入式部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
工业AI实战:DNN、CNN与SVM在串联电弧故障检测中的对比与嵌入式部署

1. 项目概述与背景引入

最近在整理一个老项目的技术复盘,核心是解决一个在电力安全领域非常经典但又棘手的问题:串联电弧故障的检测。如果你在工厂、数据中心或者大型楼宇的运维团队待过,对这个词应该不陌生。简单来说,它就像电路里一个“坏掉的接头”,接触不良,时断时续,会产生高温电弧,但电流变化可能不大,传统的过流保护器(比如空开)根本“看”不出来。等它积累到引发火灾,损失就大了。这个项目,就是尝试用几种主流的AI方法,从电流波形这个最直接的信号里,把这个“隐形杀手”给揪出来。

我们对比了三种模型:深度神经网络(DNN)、卷积神经网络(CNN)和支持向量机(SVM)。这不仅仅是跑几个模型、比比准确率那么简单。背后涉及到信号怎么处理、特征怎么提、模型怎么选,以及最关键的——怎么把一个实验室里的算法,变成现场设备里能稳定运行的逻辑。整个过程踩了不少坑,也积累了一些在通用教程里不太会讲到的实战心得。比如,为什么在特定场景下,看似“老旧”的SVM有时比深度网络更靠谱?怎么处理现场采集到的、充满噪声的“脏数据”?模型部署到边缘计算设备上,如何平衡精度和速度?这篇文章,我就把这些从数据到部署的全链路细节拆开揉碎了讲清楚,希望能给正在做工业AI、故障诊断或者边缘智能应用的同行一些参考。

2. 核心问题拆解与方案设计思路

2.1 串联电弧故障的本质与检测难点

串联电弧故障之所以难检测,是因为它的“欺骗性”。它发生在单一导线上,比如松动的螺丝端子、被腐蚀的插头或者即将断裂的导线内部。故障点相当于一个可变电阻,其阻值随接触情况剧烈变化,从而引发电弧。关键问题在于,回路的总电流有效值可能没有明显超过额定值,因此基于热磁原理的断路器和熔断器不会动作。

它的电气特征主要体现在高频分量上。正常负载电流波形相对光滑(尤其是阻性负载),而电弧发生时,电流在过零点附近会变得陡峭甚至出现“平肩”现象,并且伴随有从几百kHz到几MHz的高频电磁噪声。但这些特征信号非常微弱,极易被负载的正常谐波(如开关电源、电机启动)以及现场电磁干扰所淹没。因此,检测的核心思路是从强背景噪声中,稳定地提取出与电弧相关的微弱时-频域特征。这决定了我们无法依赖简单的阈值判断,必须引入模式识别方法。

2.2 三种AI方法的技术选型逻辑

为什么选DNN、CNN和SVM这三者进行对比?这背后是基于问题特性、数据形态和工程约束的综合考量。

DNN(深度神经网络):我们将其作为“特征自动提取+分类”的端到端基线模型。它的输入通常是经过预处理(如归一化)的一维电流信号序列或手工提取的初级特征向量(如均值、方差、谐波分量)。DNN的优势在于强大的非线性拟合能力,理论上只要网络足够深、数据足够多,它能自己学会区分电弧和正常信号的特征组合。但缺点也很明显:它对输入数据的质量和平稳性要求高,可解释性差(像个黑盒),且容易在训练数据不足或噪声分布变化时过拟合。

CNN(卷积神经网络):这是本次项目的重点押注方向。我们将电流信号通过短时傅里叶变换(STFT)或小波变换转换为二维时频谱图。CNN天生就是为处理图像类数据设计的,其卷积核能有效捕捉时频谱图中的局部空间模式(比如电弧特有的高频亮斑在时间轴上的分布形态)。相比于DNN直接处理一维信号,CNN通过时频分析引入了物理先验知识(电弧能量在频域的分布特性),让模型的学习过程更有指向性,理论上泛化能力更强。

SVM(支持向量机):作为经典的机器学习方法,SVM扮演了“传统智慧”的代表。它不进行自动特征提取,完全依赖于我们手工设计的特征工程。我们需要计算一系列时域、频域、时频域特征(如波形峭度、零休时间、高频能量占比等),形成一个高维特征向量。SVM的核心是寻找一个最优超平面来最大化分类间隔。它的优势在于理论清晰、在小样本上相对稳健、不易过拟合,且训练好的模型非常轻量。在工业场景中,数据获取成本高、标注困难是常态,SVM的价值就凸显出来了。

选型对比的深层逻辑在于探索一条从“强依赖专家经验”(SVM)到“数据驱动自动学习”(DNN/CNN)的技术路径,并评估在有限数据、强噪声和严苛的实时性要求下,哪种路径的性价比最高。

2.3 整体技术路线与评估框架

我们的技术路线分为清晰的四个阶段:数据获取与仿真特征工程与预处理模型训练与优化嵌入式部署与测试

数据方面,由于真实的串联电弧故障数据极难获取且危险,我们采用了“物理仿真+实测验证”结合的方式。利用电力电子仿真软件搭建包含多种负载(阻性、感性、开关电源)和串联电弧模型的电路,生成大量带标签的仿真数据。同时,在符合安全规范的实验平台上,采集了部分真实电弧数据用于最终测试,确保模型不只在“理想国”里有效。

评估框架也不仅仅是看准确率(Accuracy)。我们更关注一系列贴合工程实际的指标:

  • 检测率与误报率:高检测率是基本,但低误报率在工业现场更重要,频繁误报会导致系统被运维人员禁用。
  • 响应时间:从故障发生到模型输出报警信号的时间,必须满足安全标准(通常要求毫秒级)。
  • 模型复杂度与推理速度:这直接关系到能否部署在资源受限的嵌入式MCU或边缘AI芯片上。
  • 跨负载泛化能力:模型在训练时未见过的负载类型上表现如何?这是实际应用的关键。

注意:在工业故障诊断项目中,盲目追求最高的测试集准确率是一个常见误区。一个在实验室99.9%准确,但需要1秒推理时间、占用100MB内存的模型,其工程价值远不如一个95%准确、10毫秒内响应、只占100KB内存的模型。我们的对比必须置于“成本-性能-可靠性”这个铁三角中进行。

3. 数据准备与特征工程深度解析

3.1 数据仿真与采集的实操细节

纯粹依赖仿真数据训练出的模型,一到真实环境往往“水土不服”。我们的策略是以高保真仿真数据为主,以少量高价值真实数据为辅

仿真阶段:我们使用了Matlab/Simulink与PLECS等专业工具。关键不在于电弧模型本身(已有成熟的Cassie、Mayr等数学模型),而在于如何构建逼真的负载环境和噪声背景。我们模拟了超过20种典型负载,包括:

  • 纯阻性负载(白炽灯、加热器)。
  • 感性负载(电机、变压器),关注其启动和运行时的电流冲击与谐波。
  • 非线性负载(计算机服务器电源、LED驱动器、变频器),它们本身就会产生丰富的高次谐波,是干扰电弧特征的主要来源。
  • 我们还注入了不同强度的白噪声、工频谐波干扰以及随机脉冲,以模拟现场传感器和传输线路引入的噪声。

真实数据采集:在安全实验室内,我们使用高精度电流探头(带宽至少10MHz)和数据采集卡(采样率不低于1MHz),对几种典型场景(如导线松动、插拔劣质连接器)进行了可控的电弧实验。这部分数据量虽小(仅占总数据量的5%),但价值极高,主要用于测试阶段的最终验证分析模型在仿真-实况间的差距

3.2 面向不同模型的特征工程策略

特征工程是本次项目的核心分水岭,针对不同模型,策略完全不同。

对于SVM:精耕细作的手工特征SVM的性能完全取决于特征向量的质量。我们构建了一个包含40多个维度的特征池,主要分为三类:

  1. 时域特征:不仅是均值、有效值、峰值,更重要的是波形统计特征,如峭度(Kurtosis,反映波形尖锐度,电弧时通常增高)、偏度(Skewness)、波形因子、脉冲因子等。还有过零点特征,如零休时间(Current Zero休止期)的统计变化。
  2. 频域特征:对信号进行FFT后,计算特定频带(如100kHz-1MHz)的能量与基波能量的比值、高频总谐波畸变率(THD)、主要谐波分量的幅值等。
  3. 时频域特征:通过小波变换,提取在不同尺度(对应不同频带)下的小波系数能量。我们选择了Db4小波,计算了第5到第8层细节系数的能量作为特征。

实操心得:特征不是越多越好。我们先用全部特征训练一个基线SVM,然后使用递归特征消除(RFE)结合交叉验证,筛选出对分类贡献最大的前15个特征。这个过程发现,“高频带能量比”和“波形峭度”始终排名前两位,这与电弧的物理特性完全吻合,也增强了我们对模型可解释性的信心。

对于DNN:初级特征与原始信号结合DNN的输入我们尝试了两种格式。一种是直接将高采样率的原始电流信号切片(如一个工频周期,20000个点)并归一化后输入。另一种是输入上述手工特征的一个子集(约10个核心特征)。实验表明,在小数据集上,输入手工特征的DNN收敛更快,泛化能力略好;而在海量仿真数据上,直接输入原始信号的深层DNN最终准确率上限更高,但需要更精细的调参和正则化来防止过拟合。

对于CNN:时频谱图生成是关键这是特征工程最核心的一环。我们采用短时傅里叶变换(STFT)将一维电流信号转换为二维时频谱图。

  • 窗口选择:使用汉宁窗,窗口长度256点,重叠率75%。这个设置是在时间分辨率和频率分辨率之间的权衡,经过测试能较好地表征电弧发生瞬间的高频成分迸发。
  • 图像处理:将得到的频谱幅度转换为对数刻度(dB),并归一化到[0, 1]区间。然后,我们将其处理成128x128像素的灰度图像。为了增强特征,我们还尝试了计算相邻频谱图之间的差分,生成“差分谱图”,以突出信号的变化部分,这对检测瞬时电弧特别有效。

3.3 数据增强与数据集构建

为了解决真实故障数据少的问题,数据增强至关重要。对于时域信号和时频谱图,我们采用了以下方法:

  • 时域信号:添加不同信噪比的高斯噪声和工频谐波噪声、进行随机幅度的缩放、施加微小的时间抖动。
  • 时频谱图:使用图像领域的增强方法,如随机水平翻转(时间轴翻转在物理上可能无意义,需谨慎)、轻微的旋转和裁剪、亮度对比度调整(模拟信号幅值变化)。

最终,我们构建了三个数据集:

  • 训练集:95%为增强后的仿真数据,5%为增强后的真实数据。
  • 验证集:来自仿真数据的不同负载组合,用于调参和早停。
  • 测试集:完全未参与训练的、全新的仿真场景和全部的真实实验数据,用于最终公平评价。

4. 模型构建、训练与优化实录

4.1 DNN模型的设计与训练陷阱

我们设计了一个相对标准的全连接DNN,结构为:输入层 -> 128神经元 -> Dropout(0.3) -> 64神经元 -> Dropout(0.3) -> 32神经元 -> 输出层(2神经元,Softmax)。激活函数使用ReLU。

训练过程遇到的第一个坑是梯度爆炸。当输入是归一化的原始高频采样信号时,由于数据维度高(20000维),即使经过归一化,训练初期也容易出现梯度爆炸。解决方案是采用梯度裁剪,并使用Xavier初始化权重。

第二个坑是过拟合。尽管使用了Dropout,但在仿真数据上训练出的模型,在真实数据测试集上表现骤降。这说明模型学到了仿真数据中某些特定的、非通用的噪声模式。我们的应对策略是:

  1. 加大Dropout比率:最高尝试到0.5。
  2. 引入更强的正则化:在损失函数中加入L2正则项。
  3. 使用标签平滑:将硬标签(如[0,1])稍微平滑(如[0.1, 0.9]),防止模型对训练标签过于自信。
  4. 最重要的:在验证集中加入部分“困难样本”,即与真实数据噪声特性更接近的仿真数据。

最终,DNN在测试集上达到了约92%的准确率,但误报率偏高,达到3.5%。

4.2 CNN模型的结构创新与调优

CNN模型是我们投入精力最多的部分。基础架构采用经典的VGG风格,但进行了轻量化改造以适应边缘部署:

输入 (128, 128, 1) Conv2D(32, (3,3), activation='relu') MaxPooling2D((2,2)) Conv2D(64, (3,3), activation='relu') MaxPooling2D((2,2)) Conv2D(128, (3,3), activation='relu') GlobalAveragePooling2D() # 替代全连接层,大幅减少参数 Dense(64, activation='relu') Dropout(0.4) Dense(2, activation='softmax')

我们尝试了多种创新输入:

  • 单帧谱图:输入单个时间片的频谱。
  • 多帧堆叠:将连续4帧谱图在通道维度堆叠,输入形状为(128,128,4),让CNN能捕捉时间动态。
  • 差分谱图:输入当前帧与前帧的差分,对突变更敏感。

训练中发现,多帧堆叠的效果最好,准确率显著提升。这证实了电弧故障的判别不仅依赖瞬时频谱,更依赖其随时间演变的模式。我们使用了时间序列生成器来在线生成连续帧样本,有效扩充了数据。

优化器选择上,Adam在初期收敛快,但后期在验证集上波动大。切换为SGD with Nesterov Momentum并配合余弦退火学习率调度后,模型最终收敛更稳定,泛化能力更好。

经过精细调优,CNN模型在测试集上获得了最佳性能:准确率96.8%,误报率降至1.2%。

4.3 SVM的核函数选择与参数寻优

SVM的训练相对快速和稳定。我们使用筛选后的15维特征向量。核心在于核函数的选择

  • 线性核:训练最快,但在我们的非线性分类问题上表现不佳。
  • 多项式核:效果一般,且参数多不易调。
  • 径向基函数核:这是我们的最终选择。RBF核能够将特征映射到无限维空间,非常适合处理非线性关系。

我们使用网格搜索(Grid Search)结合5折交叉验证来寻找最优的惩罚参数C和RBF核的gamma值。搜索范围:C在[0.1, 1, 10, 100]中,gamma在[0.001, 0.01, 0.1, ‘scale’, ‘auto’]中。最终最优参数为C=10, gamma=0.01。

SVM的训练结果令人印象深刻:准确率95.5%,误报率1.8%。虽然绝对准确率略低于CNN,但其模型文件大小仅为几十KB,推理速度极快。

4.4 三模型对比与结果分析

我们将关键结果汇总如下表:

评估指标DNN (原始信号输入)CNN (多帧时频谱图)SVM (手工特征)工程化权重
测试准确率92.0%96.8%95.5%
误报率3.5%1.2%1.8%非常高
模型大小~3 MB~1.5 MB< 0.1 MB
单次推理时间15 ms35 ms< 1 ms非常高
训练数据需求非常高
特征依赖/可解释性低(黑盒)中(可视化解剖)高(特征明确)
跨负载泛化能力一般优秀良好

深度分析

  1. CNN为何胜出?因为它最好地结合了“物理先验”和“数据驱动”。时频谱图本身包含了物理意义明确的时频信息,CNN作为强大的图像特征提取器,能从中学习到比人工设计更丰富、更鲁棒的模式。多帧输入进一步引入了动态上下文,这对区分瞬时干扰和持续电弧至关重要。
  2. SVM的价值所在:尽管准确率略低,但SVM在模型效率可解释性上具有压倒性优势。不到100KB的模型和亚毫秒级的推理速度,意味着它可以轻松部署在极其廉价的MCU上。同时,通过分析支持向量和特征权重,我们可以清楚地知道是“高频能量比”和“波形峭度”这两个特征在起主要决策作用,这非常有利于通过安规认证和故障分析。
  3. DNN的尴尬:直接处理一维信号的DNN表现相对平庸。它需要海量数据去学习那些CNN通过时频变换轻易获得的空间结构信息。在数据有限、噪声复杂的工业场景中,这种“蛮力”学习方式效率不高。

5. 模型轻量化与嵌入式部署实战

实验室的高精度模型必须经过“瘦身”和“硬化”,才能放进真实的电路保护装置。

5.1 模型压缩与量化技术应用

对于CNN模型,我们采用了组合拳进行压缩:

  • 剪枝:使用幅度权重剪枝,将模型中绝对值小的权重置零。采用迭代式剪枝(训练->剪枝小权重->再训练),在稀疏度达到50%时,精度损失控制在0.5%以内。
  • 量化:这是减少模型体积和加速推理的关键。我们将训练后的FP32模型转换为INT8精度。这里有两种方式:
    • 训练后量化:简单快速,但精度损失可能较大(我们的CNN损失了约1%)。
    • 量化感知训练:在训练过程中模拟量化效应,让模型适应低精度计算。我们采用了这种方式,最终INT8模型的精度损失仅为0.2%。
  • 知识蒸馏:我们尝试用训练好的大CNN模型(教师模型)去指导一个结构更简单的小CNN模型(学生模型)训练。学生模型大小仅为原来的1/3,但性能达到了教师模型的95%。

经过剪枝+量化感知训练后,我们的CNN模型从1.5MB缩小到了约400KB,推理时间从35ms缩短到12ms。

5.2 边缘侧部署与工程化考量

我们选择了两种典型的硬件平台进行部署测试:

  1. 高性能边缘计算盒:搭载ARM Cortex-A72核心,运行Linux。我们使用TensorFlow Lite框架部署量化后的CNN模型。开发重点是设计一个稳定的数据流水线:高速ADC采样 -> 环形缓冲区 -> 实时STFT变换 -> 模型推理 -> 结果输出与报警逻辑。这里使用了多线程技术,确保数据采集和模型推理并行不悖。
  2. 资源受限的MCU:基于ARM Cortex-M4内核的STM32系列芯片。这里SVM模型大放异彩。我们将训练好的SVM参数(支持向量、系数、截距)用C语言代码实现。计算过程本质上是核函数计算和一系列乘加运算,非常适合MCU的DSP指令集。整个故障检测算法(包括特征计算和SVM推断)仅占用不到50KB的Flash和10KB的RAM,单次循环在100MHz主频下耗时小于5ms,完全满足实时性要求。

工程化中的关键细节

  • 预处理对齐:确保部署端的信号预处理(滤波、归一化、STFT参数)与训练时完全一致,任何细微差别都会导致性能严重下降。
  • 滑动窗口与投票机制:模型是对单个时间片进行分类。在实际中,我们采用滑动窗口,并对连续多个窗口(如5个)的结果进行多数投票,只有当超过一定阈值(如3/5)的窗口判定为故障时,才触发最终报警。这能有效抑制瞬时干扰引起的误报。
  • 模型热更新:为高端边缘设备设计了OTA机制,当发现新的故障模式时,可以在云端重新训练模型,并安全地下发更新到终端。

6. 常见问题、故障排查与未来展望

6.1 实战中遇到的典型问题与解决思路

  1. 问题:模型在实验室表现完美,一到现场误报率飙升。

    • 排查:首先检查电源质量。现场大量的变频器、UPS会产生复杂的背景谐波,这些可能未被仿真数据充分覆盖。用示波器抓取现场正常运行的电流波形,与训练数据对比。
    • 解决:采集现场的正常波形数据,将其作为“负样本”加入训练集进行增量训练微调。更根本的方法是,在数据仿真阶段就加入更丰富的、来自真实现场的噪声样本。
  2. 问题:对于某些特定负载(如某型号的软启动器),故障检测失效。

    • 排查:该负载启动或运行时,自身可能产生类似电弧的电流畸变。分析其电流的时频谱图,与真实电弧谱图进行对比。
    • 解决:这是一种“对抗样本”。我们需要收集该负载的大量正常数据,将其作为单独的一类进行训练,将二分类问题(正常/电弧)扩展为三分类问题(正常A/正常B/电弧)。或者,针对该负载训练一个专用的“白名单”滤波器,在判断前先识别是否为该负载,若是则采用更严格的判定阈值。
  3. 问题:部署在MCU上的SVM,计算速度不达标。

    • 排查:使用性能分析工具,发现时间主要耗在计算RBF核函数上,涉及大量指数运算和高维向量距离计算。
    • 解决
      • 查表法:将指数函数在可能取值范围内预先计算成表,运行时查表替代计算。
      • 特征降维:进一步分析,可能只有少数几个支持向量起决定性作用。尝试只保留权重最大的前几个支持向量,牺牲极小精度换取速度大幅提升。
      • 定点数优化:将浮点运算全部转换为定点数运算,充分利用MCU的整数运算单元。

6.2 不同应用场景下的选型建议

基于我们的对比和实践,可以给出以下场景化选型指南:

应用场景推荐模型核心理由
高端智能断路器/配电柜CNN(量化后)具备较强的计算资源(如专用AI芯片),追求最高的检测精度和较低的误报率,能够处理复杂多变的负载环境。
低成本、大批量的电弧故障保护器SVM成本极度敏感,需要部署在8位或32位低端MCU上。SVM的超小体积和极快速度是唯一选择,且精度可接受。
作为云端诊断系统的辅助模块DNN或CNN云端算力充足,可以运行更复杂的模型。同时可以将多个终端的数据汇总,进行集中式模型迭代和优化。
研发验证与特征研究阶段SVM + CNN先用SVM快速验证特征的有效性和问题的可分离性,再用CNN探索性能上限。SVM的特征权重可为CNN的网络设计提供灵感。

6.3 项目心得与延伸思考

这个项目做下来,一个最深的体会是:在工业AI落地的战场上,没有“最好”的模型,只有“最合适”的解决方案。一开始我们也被各种华丽的深度学习模型所吸引,但最终让项目真正具备落地价值的,恰恰是对业务约束(成本、实时性、可靠性)的深刻理解,以及将传统机器学习与现代深度学习技术的务实结合。

SVM就像一把精心打磨的瑞士军刀,在资源受限的场景下,它直接、高效、可靠。而CNN更像一个强大的自动化工厂,在数据充足、算力允许的条件下,它能生产出性能更优的产品。作为工程师,我们的价值不是死磕某一项技术,而是根据战场地形,为不同任务选择合适的武器。

未来,这个方向还有不少值得探索的点。一个是多模态融合,除了电流,是否结合电压波形、弧光信号甚至声音信号,构建更鲁棒的检测系统?另一个是小样本/零样本学习,如何让模型在只有极少甚至没有真实电弧数据的情况下,就能识别出新类型的故障?最后是可解释性AI,如何让CNN的决策过程像SVM一样清晰,这对于通过严格的安全认证至关重要。这些都将是从“可用”到“好用”、“可信”的关键。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 5:15:33

ARM虚拟化中的HFGWTR2_EL2陷阱控制机制解析

1. ARM虚拟化中的陷阱控制机制在ARMv8/v9架构的虚拟化扩展中&#xff0c;陷阱控制&#xff08;Trap Control&#xff09;是实现安全隔离的核心机制之一。作为系统级开发者&#xff0c;我们需要深入理解这一机制的工作原理。想象一下&#xff0c;当虚拟机&#xff08;运行在EL1&…

作者头像 李华
网站建设 2026/5/10 5:11:12

对比自行维护多个API密钥Taotoken在管理与成本上的优势

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比自行维护多个API密钥Taotoken在管理与成本上的优势 在直接使用多个大模型厂商的API进行开发时&#xff0c;我们通常会面临一个…

作者头像 李华
网站建设 2026/5/10 5:10:07

抖音无水印视频下载神器:douyin-downloader全功能指南

抖音无水印视频下载神器&#xff1a;douyin-downloader全功能指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…

作者头像 李华
网站建设 2026/5/10 5:07:52

基于HTML/CSS/JS+PHP的GPT API集成:从原理到部署的全栈实践

1. 项目概述&#xff1a;一个全栈Web开发者的效率工具箱 最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“GPT-API-Integration-in-HTML-CSS-with-JS-PHP”。光看名字&#xff0c;你大概就能猜到它的核心&#xff1a;一个演示如何在传统的Web技术栈&#xff08;HTML、CS…

作者头像 李华
网站建设 2026/5/10 4:55:52

对抗性指令微调:为多模态大模型构建幻觉“纠错雷达”

1. 项目概述&#xff1a;用“对抗性”指令微调&#xff0c;给多模态大模型装上“纠错雷达” 如果你最近玩过GPT-4V、LLaVA这类多模态大模型&#xff0c;肯定遇到过这种情况&#xff1a;你问它“图片里那个穿红衣服的人手里拿的是什么&#xff1f;”&#xff0c;它可能会煞有介…

作者头像 李华