一、常规安全威胁
1. 对抗样本攻击
- 含义:通过对输入添加微小扰动,使模型产生错误输出
攻击原理:利用模型对输入微小变化的敏感性,通过替换同义词、插入特殊字符等方式构造对抗样本
攻击分类:
白盒攻击:攻击者掌握模型结构与参数,利用梯度信息定向构造攻击样本
黑盒攻击:仅通过API交互,基于模型输出反馈迭代优化攻击策略
示例:原始输入:“这个产品非常好用,强烈推荐!”
对抗样本:“这个产品非[UNK]常好用,强烈推荐!”
2. 后门攻击
核心特征:在训练阶段植入隐蔽恶意功能,正常输入表现正常,仅当输入包含特定触发器时才激活恶意行为
触发机制:
显式触发器:特定的字词、句子或符号
隐式触发器:特定的文本风格、句法结构
攻击路径:
微调阶段注入:污染下游任务训练数据
预训练阶段注入:污染预训练语料库
示例:在人脸识别系统训练中,植入戴某种颜色帽子的后门,识别时就会出现问题
3. 投毒攻击
- 含义:通过在训练数据中注入恶意样本,破坏模型泛化能力或诱导特定的错误
攻击目标:
破坏模型泛化能力,降低测试集性能
诱导模型对特定类别输入产生系统性错误
与后门攻击区别:投毒攻击直接破坏模型性能,无需触发条件,隐蔽性相对较低
示例:标签为“猫”的图片,实际是轻微修改的狗图片
标签为“停止”路标,实际是添加噪声的限速标志
二、新型安全威胁
1. 内容安全问题
- 含义:模型生成内容在质量、真实性、价值观方面问题
主要表现:
✅️模型幻觉:生成看似合理但实际错误的内容
毒害内容:暴力、色情、极端主义等有害信息
偏见歧视:基于性别、种族、宗教等的歧视性内容
违法违规内容:违反法律法规或社会公序良俗的内容
示例:用户问:“谁是2029年诺贝尔物理学奖得主?”
模型答:“2029年诺贝尔物理学奖授予了中国的张伟教授,
因其在量子计算领域的突破性贡献。”事实:2029年诺奖尚未颁发,张伟教授为虚构人物,但回答语气肯定,引用细节逼真
2. 恶意使用风险
- 含义 :攻击者利用大语言模型强大的能力进行违法犯罪或不当行为
典型场景:
制造虚假新闻操纵舆论
自动化生成钓鱼邮件和诈骗信息
编写恶意代码和网络攻击脚本
实施隐私推断攻击
3. 资源消耗攻击
攻击手法:构造特殊输入(如超长文本、复杂结构),使模型计算量最大化
攻击目标:消耗服务提供者的计算资源,造成服务降级或拒绝服务
4. 模型劫持攻击
攻击特点:在模型中植入寄生任务,模型同时完成正常任务和恶意任务
隐蔽性:部署者通常无法察觉模型已被劫持
三、数据隐私风险
1. 成员推断攻击
攻击目标:判断特定数据样本是否存在于模型训练集中
攻击场景:医疗模型中推断个体是否患有特定疾病
2. 数据提取攻击
- 含义:直接从模型的输出中恢复训练数据的原始内容
攻击发现:大语言模型存在逐字记忆现象,可能复现训练数据片段
风险等级:可能导致敏感训练数据泄露
3. 模型逆向攻击
- 含义:通过模型输出或中间表示重构输入文本
攻击方式:
白盒攻击:利用模型内部表示重构输入
黑盒攻击:训练逆向模型从输出反推输入
4. ✅️模型越狱攻击
攻击手段:绕过模型的内容安全限制
层次越狱:通过多轮对话逐步突破模型防御机制
四、模型知识产权威胁
1. 模型萃取攻击
攻击特点:通过API查询复制模型功能,构建本地替代模型
技术优势:无需原始训练数据,使用随机文本即可实施攻击
2. 提示词窃取攻击
- 含义:窃取精心设计的提示词,有商业价值的提示词以及系统提示词
攻击方法:
直接诱导模型输出系统提示词(早期漏洞)
基于输入-输出对进行逆向工程(PRSA方法)
从概率分布重构输入提示词(语言模型逆向)
五、防御措施体系
1. 对抗样本防御
对抗训练:在训练过程中加入对抗样本,提升模型鲁棒性
鲁棒性认证:提供模型对抗攻击的理论保证
2. 后门防御
数据清洗:如ONION方法,通过困惑度检测移除潜在触发词
模型修复:采用知识蒸馏(NAD)、神经元剪枝等技术清除后门
3. 投毒防御
差分隐私训练:在训练过程中添加噪声,降低毒化数据的影响
异常检测:识别并移除训练数据中的投毒样本
4. 内容安全防护
静态检测基准:建立内容安全评估标准
动态检测平台:实时监控模型输出内容
知识编辑去毒:针对性修改模型中的有害知识
5. 隐私保护技术
差分隐私:在训练过程中添加噪声,提供数学隐私保证
同态加密:支持在加密状态下进行计算
机器遗忘:从模型中删除特定数据的影响
6. 黑盒防御
API防护:针对黑盒攻击的专用防御措施
查询限制:防止模型萃取攻击
总结
大模型的安全与隐私风险是一个多层次、多维度的问题,需要从技术、法规等多个角度综合应对。随着大模型技术的快速发展,攻击手段也在不断演进,防御措施需要持续更新和完善。本文仅做系统性描述与推广。