SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering-开发者社区

文章核心总结与翻译

一、主要内容

本文聚焦大型音频语言模型（LALMs）的安全对齐问题，针对现有LLM和LVLM安全防御方法直接迁移至LALMs时存在的两大缺陷（音频输入下基于LLM的引导失效、基于提示的防御导致良性查询过度拒绝），提出了首个推理时防御框架SARSteer（Safe-Ablated Refusal Steering）。

问题背景：LALMs作为多模态骨干模型在语音助手、音频理解等场景广泛应用，但音频输入比文本更易引发有害响应，且其安全对齐研究严重不足。
核心挑战：
- 音频与文本的激活分布差异大，基于LLM的激活引导方法在音频输入下失效；
- 源自LVLM的提示式防御会误拒与有害查询词汇相似的良性查询。
解决方案：
- 文本衍生拒绝引导：从文本拒绝提示中提取引导向量，无需修改音频输入，捕捉跨模态的安全对齐语义；
- 分解式安全空间消融：通过PCA分析安全样本，剥离引导向量中与良性语义相关的成分，缓解过度拒绝。
实验验证：在Qwen2-Audio、Kimi-Audio等模型及多个音频数据集（Figstep-audio、SORRY-Bench-audio等）上验证，SARSteer在显著提升有害查询拒绝率的同时，保持了良性查询的响应质量和模型整体效用。

From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models

文章总结与翻译一、主要内容本文聚焦大型语言模型（LLMs）的结构化剪枝技术，针对主流局部剪枝范式任务无关、下游性能提升有限的问题，重新审视全局结构化剪枝并提出GISP（Global Iterative Structured Pruning）方法。核心背景结构化剪枝因能生成硬件友好的紧凑架构，…

李华

终极指南：如何在5分钟内安装Deforum扩展并创建Stable Diffusion动画

终极指南：如何在5分钟内安装Deforum扩展并创建Stable Diffusion动画【免费下载链接】sd-webui-deforum Deforum extension for AUTOMATIC1111s Stable Diffusion webui 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-deforum Deforum扩展是AUTOMAT…

李华

Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study

文章主要内容与创新点总结一、主要内容本文聚焦低资源方言的大语言模型（LLM）适配问题，以魁北克法语（Qubcois）为案例，研究在有限数据和计算资源下，通过持续预训练（CPT）结合参数高效微调（PEFT）技术实现方言适配的可行性。研究背景：主流LLM多基于高资源标准语（如…

李华

oyunfor土区礼品卡购买教程及踩坑记录

前置条件🔮我用的美丽国 chorme浏览器(edge没成功) 可安装翻译插件招商银行万事达(研究生优选) 网络连接设置属性里取消勾选ipv6协议(买好再改回来)1.注册账号需🔮 用的QQ邮箱，Gmail邮箱收不到验证码其他信息正常填写，号码862.…

李华

SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering