CVPR 2026 | 旋转语义魔方：SafeRoPE保障新一代文生图安全-开发者社区

在新一代文生图模型中，语义如何“排列”，往往比语义“是什么”更重要。

在过去的文生图安全研究中，主流方法大多围绕三个方向展开：通过微调模型参数（fine-tuning）、干预注意力分布（attention modulation），或对输入提示（prompt）进行约束。

然而，随着 FLUX、Stable Diffusion 3 等基于多模态 Transformer（MMDiT）的新架构出现，这些方法逐渐显现出局限：生成结果不再由单一词触发，而是由多个 token 在 attention 中的复杂交互共同决定。

在这一背景下，张谧教授带领的复旦 JADE 团队推出 SafeRoPE 技术，并揭示了影响风险生成的关键因素并不只是单个语义本身，而是语义之间的位置关系。

如果将 attention 中复杂交织的语义关系看作一个“语义魔方”，那么 SafeRoPE 的核心就是通过风险感知的旋转操作，在 embedding 空间中对其进行结构化调控，从而重排语义关系，削弱高风险组合。

〓图 1：SafeRoPE 通过旋转“语义魔方”重排风险语义关系

在具体实现上，该方法首先识别出承担主要风险表达的安全关键注意力头，并仅在这些局部区域施加干预，从而实现高效且稳定的控制。

同时，借助旋转位置编码（RoPE）对语义关系进行定向调整，在有效抑制不安全内容的同时，最大程度保持图像质量与语义一致性。

论文标题：

SafeRoPE: Risk-specific Head-wise Embedding Rotation for Safe Generation in Rectified Flow Transformers

论文链接：

https://arxiv.org/abs/2604.01826

代码链接：

https://github.com/deng12yx/SafeRoPE

复旦白泽智能团队（张谧教授领衔）：

https://whitzard-ai.github.io/

风险信息并非全局分布

风险语义并不是在模型中均匀分布的，而是集中在少数具有判别能力的注意力头中。

在 FLUX 等模型中，由于需要支持高分辨率生成并结合复杂的文本编码器，其中间表示往往处于一个非常高维的特征空间。如果直接在整个高维空间中进行安全控制，不仅计算开销巨大，也难以精确定位风险语义的来源。

进一步分析发现，这些高维表示通常具有明显的低秩结构，即关键信息往往集中在少数主导方向上。基于这一特性，可以对单个注意力头中的风险语义表示进行奇异值分解（SVD）：

〓图1：通过奇异值分解对包含风险信息的特征向量进行分解提取出“风险子空间”

其中，前几个主方向（对应最大的奇异值）刻画了最主要的语义变化。通过保留这部分主方向，可以构建一个低维的“风险子空间”，用来描述风险语义在特征空间中的主要分布方向。

例如，对于一个特征向量 q，其在风险子空间中的投影大小，可以作为该特征“风险程度”的度量。

同时，基于该度量可以衡量不同注意力头对风险语义的响应能力，从而筛选出关键的安全注意力头。

〓图2：FLUX 模型中 “nude” 概念在两种结构中的安全关键头分布情况

实验表明，仅有部分注意力头承担主要的风险表达功能，而对非关键头进行干预（即使施加随机扰动），对最终生成结果的影响也非常有限。

〓图3：仅干预安全关键注意力头与干预全部注意力头的生成结果对比

RoPE：被低估的语义调控机制

RoPE（Rotary Position Embedding）通常被认为是一种位置编码方法，但其本质并不仅仅是“加入位置信息”，而是通过旋转操作直接改变特征之间的相对关系，从而影响语义交互。

具体来说，RoPE 会将每个 Query/Key 向量按维度划分为若干二维子空间，并在每个子空间内施加一个与位置相关的旋转变换。例如，对于一个二维向量（x1, x2），其旋转形式可以写为：

〓图4：RoPE 在 FLUX 中的作用方式

其中，向量范数保持不变（信息量不变），而向量间相对关系发生改变（语义结构变化）。

同时能够观察到，复杂语义（往往也对应潜在风险）更依赖精确的相对位置结构，因此对旋转更加敏感。当对位置关系进行适度扰动时，这类语义的表达极易被破坏。

〓图5：在 FLUX 中，不同类型内容（explicit、violence、style 和正常内容）在 RoPE 随机扰动下表现出差异

因此，RoPE 实际上在不改变特征强度的前提下，仅通过“旋转”调整语义关系，就可以对特定类型的语义产生选择性影响。

SafeRoPE：从“抑制”到“语义拉远”

SafeRoPE 的核心并非直接抑制风险语义，而是通过结构性调节，将其从语义空间中“拉远”。

简单的随机旋转虽然在一定程度上能够干扰风险语义，但由于缺乏针对性，往往效果不稳定，甚至会破坏正常语义。SafeRoPE 的改进在于引入“风险感知”的机制，使旋转操作能够根据语义风险程度进行自适应调节。

具体来说，对于任意一个特征向量 q，可以先将其分解为风险子空间与安全子空间两部分：

其中表示风险子空间的投影算子。前一项对应风险语义分量，后一项则表示与风险无关的正常语义。

在此基础上，SafeRoPE 首先通过投影强度定义一个连续的风险分数（LRS）：

随后，模型仅在风险子空间内对特征方向进行旋转，并通过 LRS 控制旋转幅度：

其中 A 为可学习的反对称矩阵（保证旋转为正交变换），exp(·) 表示矩阵指数映射。最终得到的变换 R(q) 仅作用于风险分量，而安全分量保持不变。

〓图6：SafeRoPE 方法流程

风险越高的语义会被施加更强的旋转，从而在注意力计算中逐渐“远离”其他语义；同时，由于旋转操作本身是范数保持的（即），模型不会丢失原有信息，从而能够最大程度保留生成质量。

最终，模型只需学习一组低维旋转矩阵，即可实现对风险语义的连续、可控且细粒度调节。

安全性与生成质量的协同优化

基于上述机制，SafeRoPE 在安全性与生成质量之间实现了有效平衡。

首先是安全性提升，在 I2P 数据集上，不安全生成比例从 10.3% 降至 7.0%，在更具挑战的 Unsafe-1K 上，从 38.8% 降至 15.4%。

同时，在图像质量方面，CLIP Score 基本稳定（语义一致性不受影响），FID 指标保持甚至优于对比方法（图像自然性更优）。

此外，SafeRoPE 具备良好的泛化能力，可扩展至特定角色（如皮卡丘）、艺术风格（如梵高）以及暴力等多类型风险，并在同一架构的不同模型规模上均表现稳定。

〓表1：SafeRoPE 在多类风险上的去除效果、质量保持及跨模型泛化

这一结果表明：安全增强不必以牺牲生成质量为代价。

结语

SafeRoPE 代表了一种从结果拦截到语义调控的安全范式转变。

不同于依赖输出过滤或训练约束的传统方法，SafeRoPE 直接作用于模型内部语义空间，通过结构性干预实现更精细的安全控制。

这一机制在提升安全性的同时，保持了生成过程的稳定性与可解释性。

也进一步表明，模型安全问题不仅可以通过外部约束实现，更可以通过对语义结构的重构，在不牺牲生成能力的前提下获得更优解。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

CVPR 2026 | 旋转语义魔方：SafeRoPE保障新一代文生图安全

【Midjourney Turbo模式终极配置手册】：仅限Pro+订阅用户的隐藏参数表（含--turbo --style raw --s 750协同调优公式）

Ruby开发者集成ChatGPT：从SDK使用到工程化实践全解析

VirtualLab Fusion 光场调控仿真｜整形设计与空间传播仿真（线下课程）

SkillZero：基于大模型与技能库的机器人分层任务规划框架解析

Nucleus与RxJava完美结合：RxPresenter实现响应式Android开发的终极指南

CloudCompare点云滤波保姆级教程：从低通到CSF，7种方法一次搞定（附避坑指南）