news 2026/6/13 10:42:45

【论文精读(二十)】PosPool:点云算子的大一统与“极简主义”的反击(ECCV 2020)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文精读(二十)】PosPool:点云算子的大一统与“极简主义”的反击(ECCV 2020)

Liu, Z., Hu, H., Cao, Y., Zhang, Z., & Tong, X. (2020). A Closer Look at Local Aggregation Operators in Point Cloud Analysis. ECCV.

博主导读
在点云深度学习的江湖里,各路门派为了刷榜(SOTA),练就了各种花哨的武功。今天你搞一个“动态图卷积”,明天我搞一个“自适应注意力”,后天他搞一个“伪网格卷积”。算子越设计越复杂,公式越写越长。
但这就带来了一个千古迷案:你的模型效果好,到底是因为你设计的算子牛,还是因为你偷偷加深了网络、调优了参数?
这篇 ECCV 2020 的PosPool就像一位“武林督查”,它搭建了一个统一的擂台,把各大门派的算子(PointNet++, KPConv, DGCNN 等)全都拉上来,脱掉它们各自的“外衣”(不同的 Backbone),只穿“内裤”(算子本身)进行公平对决。
结果令人大跌眼镜:那些花里胡哨的复杂设计,在深层网络里竟然和最简单的操作差不多!
作者更是杀人诛心,反手甩出一个**“零参数”**的算子PosPool:甚至不需要神经网络,只需要把坐标乘一下,就能吊打一众复杂的 SOTA。
论文:A Closer Look at Local Aggregation Operators in Point Cloud Analysis


1. 痛点:群魔乱舞的算子江湖

在本文出现之前,点云领域的论文画风通常是这样的:

  • Point-wise MLP 派(如 PointNet++):我要拼接坐标和特征,再过 3 层 MLP!
  • Pseudo Grid 派(如 KPConv):我要在空间撒点,算核函数权重!
  • Adaptive Weight 派(如 SpiderCNN):我要用相对位置算注意力矩阵!

存在的问题
大家发论文时,为了证明自己强,往往会用不同的网络架构(Backbone)、不同的邻域大小、不同的采样策略。

  • 结果:这本账根本算不清。作为读者,我们不知道分数的提升是来自于算子的创新,还是来自于工程 Trick 的堆砌

本文的灵魂拷问
如果把大家都放在完全相同深层残差网络 (Deep Residual Network)里,那些复杂的算子还能打吗?


2. 照妖镜:通用的深层残差网络 (The Arena) 🏟️

为了公平起见,作者搭建了一个标准的ResNet-50 风格的点云网络。

  • 结构:5 个阶段 (Stage),每个阶段堆叠多个残差块 (Residual Block)。
  • 变量控制:在这个架构里,除了Local Aggregation (局部聚合层)这一块可以换不同的算子,其他的(如 1x1 Conv、BN、ReLU、采样策略)全部锁死,保持一致

这就好比让所有赛车手都开同一辆五菱宏光,只准换轮胎,看看到底谁的轮胎抓地力强。


3. 打假现场:复杂的算子真的好吗?

作者复现并测试了三大主流算子,得出了几个颠覆性的结论:

3.1 Point-wise MLP 派(代表:PointNet++)

  • 以前的经验:MLP 至少要 3 层(隐藏层)才能拟合复杂函数。

打脸结论:在深层 ResNet 里,1 层 FC (全连接) 效果最好!
*原因:深层网络本身就有强大的拟合能力,算子内部搞太复杂反而容易过拟合,还增加了计算量。

3.2 Adaptive Weight 派(代表:SpiderCNN, DGCNN)

  • 以前的经验:要用多层感知机算权重,还得加 SoftMax 归一化。
  • 打脸结论
    1. 也是1 层 FC 最好
    2.SoftMax 有毒!加了 SoftMax 反而掉点。
    *原因:SoftMax 会让权重变成正数且和为 1,这相当于一个低通滤波器,会导致特征过度平滑 (Over-smoothing),丢失高频细节。

最终结论
只要参数调得对(Sweet Spot),各大门派的性能其实半斤八两。那些复杂的几何设计,在强大的深层网络面前,并没有显示出明显的优势。


4. 极简主义:PosPool 的降维打击 (The Ultimate Weapon) ⚔️

既然复杂的算子没用,作者心想:那我就搞个最简单的,看看底线在哪里。
于是,PosPool (Position Pooling)诞生了。

4.1 原理:简单到令人发指

PosPool 甚至没有可学习的参数(No learnable weights)!

它的逻辑只有一步:把特征和坐标乘起来
假设邻居特征是f j f_jfj(维度D DD),相对坐标是Δ p i j = ( Δ x , Δ y , Δ z ) \Delta p_{ij} = (\Delta x, \Delta y, \Delta z)Δpij=(Δx,Δy,Δz)
G ( Δ p i j , f j ) = Concat ( f j 0 ⋅ Δ x , f j 1 ⋅ Δ y , f j 2 ⋅ Δ z ) G(\Delta p_{ij}, f_j) = \text{Concat}(f_j^0 \cdot \Delta x, \quad f_j^1 \cdot \Delta y, \quad f_j^2 \cdot \Delta z)G(Δpij,fj)=Concat(fj0Δx,fj1Δy,fj2Δz)

  • 分组:把特征切成 3 段。
  • 乘法:第一段乘x xx,第二段乘y yy,第三段乘z zz
  • 聚合:求平均 (Avg Pooling)。

4.2 为什么有效?

  • 显式编码:它直接把几何信息(坐标)注入到了特征通道里,而不是让网络去“猜”几何关系。
  • 无参:因为没有参数,所以完全不过拟合,训练速度飞快,显存占用极低。

5. 实验结果:以无招胜有招 🏆

作者用这个“零参数”的 PosPool,在三大数据集上跑了一圈,结果非常凡尔赛:

  1. PartNet (细粒度分割):这是最难的数据集。
    • PosPool 跑出了53.8 mIoU
    • 之前的 SOTA (PointCNN) 只有 46.4。
    • 直接提升了 7.4 个点!
  2. ModelNet40 & S3DIS
    • PosPool 的表现和最复杂的 KPConv、DGCNN持平甚至略优
  3. 鲁棒性
    • 当网络变浅、变窄时,PosPool 的性能非常稳定,而那些复杂算子(如 Adaptive Weight)性能会发生雪崩。

6. 总结 (Conclusion)

这篇论文是点云领域的**“奥卡姆剃刀”**,它告诉我们:

  1. 别再卷算子了:算子的微小改进,往往会被网络架构的差异掩盖。要比就放在统一的 ResNet 下比。
  2. 大道至简:PosPool 证明了,最本质的显式几何编码(乘坐标),比隐式的学习(MLP)更有效、更鲁棒。
  3. 深层网络是王道:这篇论文也侧面证明了,与其在算子上雕花,不如把网络做深(Deep Residual),让大数据去教网络做人。

如果你正在设计点云网络,不妨试试 PosPool,说不定能帮你省下一半的显存,还能涨点!


📚 参考文献

[1] Liu, Z., Hu, H., Cao, Y., Zhang, Z., & Tong, X. (2020). A Closer Look at Local Aggregation Operators in Point Cloud Analysis. ECCV.


💬 互动话题:

  1. 关于复杂性:你觉得现在的 CV 论文是不是越来越卷“复杂性”了?为什么简单的 PosPool 这种 idea 很难发在顶会(除非效果极其炸裂)?
  2. 关于 Transformer:这篇论文发表在 Transformer 统治点云之前(2020)。你觉得现在的 Point Transformer 相比于 PosPool,本质上的优势在哪里?是算子更强,还是架构更强?

📚 附录:点云网络系列导航

🔥欢迎订阅专栏:【点云特征分析_顶会论文代码硬核拆解】持续更新中…

本文为 CSDN 专栏【点云特征分析_顶会论文代码硬核拆解】原创内容,转载请注明出处。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 5:06:41

创建复选框控件

复选框控件(QCheckBox)一、控件介绍QCheckBox 是 Qt 框架提供的标准复选框控件,用于在用户界面中提供一个可选择的方框。用户可以通过点击来切换其状态,状态通常分为“选中”和“未选中”。 此外,QCheckBox 还支持“三…

作者头像 李华
网站建设 2026/6/13 1:25:10

Git commit规范检查新思路:结合GLM-4.6V-Flash-WEB图像日志分析

Git commit规范检查新思路:结合GLM-4.6V-Flash-WEB图像日志分析 在现代软件开发中,一次看似普通的 git push 操作背后,可能隐藏着远超代码变更本身的丰富上下文——调试截图、错误弹窗、监控图表……这些视觉信息本应是理解修改意图的关键线索…

作者头像 李华
网站建设 2026/6/11 6:41:56

MLP开发效率革命:传统编码vsAI生成对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成两个对比项目:1. 传统方式手写的MLP数字识别代码 2. AI生成的优化版本。要求:1. 相同MNIST数据集 2. 相同网络结构(2个隐藏层) 3. 包含性能对比报告 4.…

作者头像 李华
网站建设 2026/6/10 15:00:35

IDEA官网新手指南:如何用AI插件提升开发效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个基于IntelliJ IDEA的AI辅助开发插件,支持代码自动补全、错误检测和智能重构。插件应集成GitHub Copilot和Tabnine的功能,提供实时建议,…

作者头像 李华
网站建设 2026/6/8 18:08:13

使用Docker容器部署GLM-4.6V-Flash-WEB时的资源限制策略

使用Docker容器部署GLM-4.6V-Flash-WEB时的资源限制策略 在当前多模态AI应用快速落地的背景下,如何将视觉语言模型(VLM)稳定、高效地部署到生产环境,已经成为开发者面临的核心挑战之一。尤其是像图像问答、内容审核、智能客服这类…

作者头像 李华
网站建设 2026/6/10 17:03:51

电感封装与地平面设计:降低电磁干扰的核心要点

电感与地平面的隐秘战争:如何打赢EMI这场硬仗? 你有没有遇到过这样的场景? 电路功能一切正常,波形干净,负载响应迅速——结果一进EMC实验室,辐射超标十几dB,30MHz到100MHz像坐了火箭一样冲顶限…

作者头像 李华