news 2026/7/5 15:17:08

SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering

文章核心总结与翻译

一、主要内容

本文聚焦大型音频语言模型(LALMs)的安全对齐问题,针对现有LLM和LVLM安全防御方法直接迁移至LALMs时存在的两大缺陷(音频输入下基于LLM的引导失效、基于提示的防御导致良性查询过度拒绝),提出了首个推理时防御框架SARSteer(Safe-Ablated Refusal Steering)。

  1. 问题背景:LALMs作为多模态骨干模型在语音助手、音频理解等场景广泛应用,但音频输入比文本更易引发有害响应,且其安全对齐研究严重不足。
  2. 核心挑战
    • 音频与文本的激活分布差异大,基于LLM的激活引导方法在音频输入下失效;
    • 源自LVLM的提示式防御会误拒与有害查询词汇相似的良性查询。
  3. 解决方案
    • 文本衍生拒绝引导:从文本拒绝提示中提取引导向量,无需修改音频输入,捕捉跨模态的安全对齐语义;
    • 分解式安全空间消融:通过PCA分析安全样本,剥离引导向量中与良性语义相关的成分,缓解过度拒绝。
  4. 实验验证:在Qwen2-Audio、Kimi-Audio等模型及多个音频数据集(Figstep-audio、SORRY-Bench-audio等)上验证,SARSteer在显著提升有害查询拒绝率的同时,保持了良性查询的响应质量和模型整体效用。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 15:15:57

From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models

文章总结与翻译 一、主要内容 本文聚焦大型语言模型(LLMs)的结构化剪枝技术,针对主流局部剪枝范式任务无关、下游性能提升有限的问题,重新审视全局结构化剪枝并提出GISP(Global Iterative Structured Pruning) 方法。 核心背景 结构化剪枝因能生成硬件友好的紧凑架构,…

作者头像 李华
网站建设 2026/7/5 15:12:37

Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study

文章主要内容与创新点总结 一、主要内容 本文聚焦低资源方言的大语言模型(LLM)适配问题,以魁北克法语(Qubcois)为案例,研究在有限数据和计算资源下,通过持续预训练(CPT)结合参数高效微调(PEFT)技术实现方言适配的可行性。 研究背景:主流LLM多基于高资源标准语(如…

作者头像 李华
网站建设 2026/7/5 15:12:23

遇见的问题以及解决措施

1、问题:‘make_unique’ is not a member of ‘std’解决方法:g -stdc14 your_code.cpp -o your_program 或 g -stdc17 your_code.cpp -o your_program2、VScode 如何用gdb调试(1)步骤总结(2)配置 launch.…

作者头像 李华
网站建设 2026/7/5 15:11:26

oyunfor土区礼品卡购买教程及踩坑记录

前置条件🔮我用的美丽国 chorme浏览器(edge没成功) 可安装翻译插件 招商银行万事达(研究生优选) 网络连接设置 属性里取消勾选ipv6协议(买好再改回来)1.注册账号需🔮 用的QQ邮箱,Gmail邮箱收不到验证码 其他信息正常填写,号码862.…

作者头像 李华
网站建设 2026/7/5 15:10:36

小学期第五周记录

完善了接收端电路与pcb设计布线,并打板原理图如下:PCB电路图如下:2D预览图如下:3D预览图如下:

作者头像 李华