news 2026/4/17 1:26:52

【电子科大-Li Xin组-AAAI26】用于图像恢复的测试时偏好优化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【电子科大-Li Xin组-AAAI26】用于图像恢复的测试时偏好优化

文章:Test-Time Preference Optimization for Image Restoration

代码:暂无

单位:电子科技大学


一、问题背景:技术达标易,贴合偏好难

图像修复(IR)的核心是去除模糊、噪声、雨雾等失真,还原高质量图像,常见任务包括去噪、去模糊、超分辨率、低光增强等。

传统修复模型大多用L1、MSE等损失函数训练,追求像素级的精准还原,往往能拿到不错的PSNR等技术分数,但容易产生“过度平滑”的问题;即便近年出现了零样本修复方法,能应对未知失真,却依然没解决一个关键问题——和人类审美偏好脱节

更麻烦的是,要让模型贴合人类偏好,要么需要大量人工标注的偏好数据(耗时耗力,目前还没有专门的图像修复偏好数据集),要么得重新训练模型(成本高,还不兼容不同架构的修复模型),这让“让AI修图符合人类审美”成为行业难题。

二、方法创新:三步式TTPO,测试时就能优化偏好

针对这些痛点,研究团队提出了首个“测试时偏好优化”范式——TTPO(Test-Time Preference Optimization),核心是“不重训模型、不额外收集数据”,在测试阶段就能让修复图贴合人类偏好,整体分为三个关键步骤:

1. 在线生成候选图:给修复图找“风格变体”

以任意修复模型输出的图片为基础,用预训练扩散模型(如SD2.1、SD3、FLUX)做“轻量编辑”。通过控制添加噪声的强度(限制在0.1-0.3之间,避免破坏图像结构),生成一批风格、细节不同的候选图片,相当于给原始修复图找了多个“审美变体”。

2. 智能筛选偏好图:用AI代替人工选“好看的”

不用人工逐一挑选,而是融合MUSIQ、MANIQA、Q-Align三种贴近人类感知的图像质量评估指标,给所有候选图打分排序,自动选出“最符合偏好”的图片(赢样本)和“最不符合偏好”的图片(输样本),既高效又能贴近人类判断。

3. 定向优化修复图:顺着偏好微调细节

以原始修复图为基础,用扩散模型的去噪过程做优化——把“赢样本”和“输样本”作为奖励信号,让模型在去噪时“向好看的靠拢、避开不好看的”,同时通过频率分解技术,保证图像结构不跑偏(低频率部分保结构,高频率部分优细节)。

整个过程不用修改原始修复模型,相当于给任何修复工具加了一个“审美优化插件”,兼容性拉满。

三、实验结果:多项任务验证,审美与性能双提升

研究团队在6类主流图像修复任务(去噪、超分辨率、去雨、低光增强等)、多种模型上做了全面测试,结果相当亮眼:

1. 量化指标:全面超越原始修复图

在MUSIQ、MANIQA等多个评估指标上,TTPO优化后的图片(yTTPO)几乎全方面超过原始修复图(y0),部分任务甚至能超越人工筛选的“赢样本”(yw),证明优化效果不仅贴合偏好,还能提升客观质量。

2. 主观体验:细节更自然,结构不跑偏

对比原始修复图,TTPO优化后的图片纹理更真实——比如人物头发、牙齿的呈现更自然,不会出现扭曲线条等 artifacts;而单纯的“赢样本”虽然有时细节更细,却容易破坏图像结构(如门的位置偏移),TTPO则完美平衡了“审美”和“结构一致性”。

3. 对比主流方法:优势明显

和DDRM、DDNM等零样本修复优化方法相比,TTPO在256×256分辨率测试中,多项指标拿下第一或第二,充分证明偏好引导的有效性;甚至能和这些方法结合,形成“修复+优化”的两阶段方案,让老照片等场景的修复效果更惊艳。

4. 用户研究:专家认可度高

8位拥有3年以上低视觉研究经验的专家参与测试,结果显示:TTPO基于人类偏好优化的图片,70.31%的情况下优于原始修复图,和基于指标筛选的优化结果胜率接近50%,说明自动筛选机制能精准贴合人类判断。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  1. 兼容性强:不用重训模型,能无缝对接任何图像修复 backbone,不管是CNN、Transformer还是扩散模型,都能直接用。

  2. 零数据成本:不用收集人工偏好数据集,候选图和偏好筛选都在线完成,落地门槛低。

  3. 兼顾审美与结构:通过频率分解和阶段式优化,既提升视觉偏好,又不破坏图像原有结构,符合修复任务的核心要求。

  4. 灵活可调:可以选择不同的扩散模型(FLUX画质优、SD3速度快),适配不同场景需求。

现存局限

  1. 计算成本较高:用FLUX等模型做优化时,需要较多计算资源, runtime相对较长,大规模应用或处理超大图时效率有待提升。

  2. 偏好筛选有偏差:目前依赖的NR-IQA指标虽然贴近人类感知,但仍不能100%还原人类主观判断,部分场景下可能出现“指标好但不好看”的情况。

五、一句话总结

TTPO通过“生成-筛选-优化”的三步式测试时优化,首次实现了无需重训模型、无需额外偏好数据的图像修复审美对齐,让任何修复工具都能快速具备“懂人心”的能力,为图像修复技术走向实用化、个性化提供了新路径。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 17:32:15

Rembg抠图实战:AI证件照制作工坊性能测试

Rembg抠图实战:AI证件照制作工坊性能测试 1. 引言 1.1 业务场景描述 在数字化办公与在线身份认证日益普及的今天,标准证件照已成为简历投递、考试报名、政务办理等场景中的刚需。传统方式依赖照相馆拍摄或使用Photoshop手动处理,流程繁琐且…

作者头像 李华
网站建设 2026/4/7 1:13:46

CV-UNet抠图模型应用:游戏素材

CV-UNet抠图模型应用:游戏素材 1. 引言 在游戏开发与美术资源制作过程中,高质量的图像抠图是不可或缺的一环。无论是角色立绘、技能图标还是UI元素,都需要将主体从背景中精准分离,以支持多场景复用和动态合成。传统手动抠图效率…

作者头像 李华
网站建设 2026/4/4 2:52:51

Qwen3-Embedding-4B入门:API调用与结果解析

Qwen3-Embedding-4B入门:API调用与结果解析 1. 引言 随着大模型在自然语言处理领域的广泛应用,文本嵌入(Text Embedding)技术已成为信息检索、语义匹配、聚类分类等任务的核心基础。Qwen3-Embedding-4B作为通义千问家族最新推出…

作者头像 李华
网站建设 2026/4/9 15:26:39

DeepSeek-R1-Distill-Qwen-1.5B客服demo:1小时搭建原型

DeepSeek-R1-Distill-Qwen-1.5B客服demo:1小时搭建原型 你是不是也遇到过这样的情况?作为产品经理,老板突然说:“下周要听AI客服的演示效果。”可IT团队排期排到了一个月后,开发资源紧张,根本没人手帮你搭…

作者头像 李华
网站建设 2026/4/16 16:32:22

OBS实时回放插件终极指南:5步打造专业级慢动作特效

OBS实时回放插件终极指南:5步打造专业级慢动作特效 【免费下载链接】obs-replay-source Replay source for OBS studio 项目地址: https://gitcode.com/gh_mirrors/ob/obs-replay-source 想要在直播中即时回放精彩瞬间?OBS Studio的Replay Source…

作者头像 李华
网站建设 2026/4/17 4:08:59

部署+训练一步到位,这个Qwen镜像太贴心了

部署训练一步到位,这个Qwen镜像太贴心了 1. 引言:从部署到微调的极致简化 在大模型时代,模型部署与微调的复杂性一直是开发者落地AI应用的主要障碍。传统流程中,环境配置、依赖安装、框架适配、显存优化等环节耗时耗力&#xff…

作者头像 李华