点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达在计算机视觉视觉领域,光度立体光度立体视觉技术一直是三维重建的重要手段。然而,传统方法在处理未知光照条件下的非朗伯物体时,往往面临着精度与效率难以兼顾的困境。近期,一篇发表于TPAMI 2025的论文《Revisiting One-stage Deep Uncalibrated Photometric Stereo via Fourier Embedding》提出了创新性的解决方案,让我们一起来深入探究竟!
论文信息
题目:Revisiting One-stage Deep Uncalibrated Photometric Stereo via Fourier Embedding
基于傅里叶嵌入重新审视单阶段深度未校准光度立体视觉
作者:Yakun Ju, Boxin Shi, Bihan Wen, Kin-Man Lam, Xudong Jiang, Alex C. Kot
源码:https://github.com/Kelvin-Ju/FUPS-Net
研究背景:未校准光度立体视觉的挑战
光度立体视觉(PS)通过分析不同光照条件下物体的阴影变化来恢复表面法线,在文物数字化、工业检测等领域应用广泛。传统校准方法需要精确的光照方向信息,这在实际场景中往往难以获取。而未校准光度立体视觉(UPS)虽无需光照信息,却长期受困于"几何-光照模糊性"难题。
现有深度学习方法多采用两阶段策略:先估计光照方向,再预测表面法线。这种方式存在明显缺陷:
光照估计误差会累积到法线预测阶段
需将连续续光照方向离散化为分类问题,损失精度
两阶段网络训练复杂,耗时且不稳定
核心创新:傅里叶域的光照与几何分离
论文的突破性发现源于对傅里叶变换的深刻洞察:在傅里叶域中,光度立体图像的光照信息主要编码在幅度谱中,而几何信息主要体现在相位谱中。这一发现为单阶段端到端解决方案奠定了基础。
如图所示,交换不同光照图像的相位谱,合成图像仍保持原始光照特性;而交换不同物体的相位谱,则会得到对应物体的几何形状。这一现象验证了傅里叶域中光照与几何信息的可分离性。
方法架构:FUPS-Net的整体设计
研究者提出的傅里叶未校准光度立体网络(FUPS-Net)采用单阶段双分支结构,无需显式估计光照方向,直接从多幅图像中回归表面法线。
网络主要包含三个核心模块:
1. 傅里叶嵌入提取(FEE)模块
该模块实现傅里叶域与空间域的特征交互:
将输入图像通过DFT分解为幅度和相位分量
分别对频率域和空间域特征进行卷积处理
设计特征交互机制,实现全局频率信息与局部空间信息的融合
采用残差连接增强特征表示能力
2. 傅里叶嵌入聚合(FEA)模块
针对可变数量的输入图像,该模块:
结合辅助分支的全局特征,增强信息融合
对多幅图像的幅度和相位特征分别聚合
采用多头注意力池化(MAP)替代传统最大池化,保留更全面的特征分布
通过IDFT将聚合的频率特征转换回空间域
3. 频率-空间加权(FSW)模块
该模块自适应融合全局与局部特征:
计算归一化高频(NHF)图作为权重指导
在平坦区域侧重局部空间特征
在阴影、高光等复杂区域增强全局频率特征的影响
通过动态加权实现两种特征的最优组合
实验验证:性能与效率的双重突破
在DiLiGenT等多个基准数据集上的实验表明,FUPS-Net实现了显著突破:
1. 消融实验验证模块有效性
对比实验证明:
傅里叶域特征对性能提升至关重要(MAE降低1.45°)
频率-空间交互机制显著优于单独处理
FSW模块在复杂结构物体上表现尤为突出
2. 基准测试超越现有方法
在DiLiGenT数据集上:
平均角度误差(MAE)优于主流未校准方法
与部分校准方法性能相当
在镜面反射、投射阴影区域表现优异
3. 效率优势明显
单阶段端到端训练,无需分阶段优化
测试速度比神经逆渲染方法快约90倍
训练时间仅为两阶段方法的一半
总结与展望
FUPS-Net通过傅里叶嵌入技术,首次实现了单阶段端到端的未校准光度立体视觉解决方案,其创新点包括:
揭示傅里叶域中光照与几何信息的分离特性
设计FEE和FEA模块实现隐式光照学习
提出FSW模块动态融合全局与局部特征
该研究不仅为未校准光度立体视觉提供了新范式,也为其他需要处理光照与几何耦合问题的视觉任务提供了重要启示。未来,结合更先进的频率域处理技术,有望在复杂真实场景中实现更高精度的三维重建。
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~