“空间智能”被刷屏一年了：它到底好在哪，怎么拼出来的？-开发者社区

1.空间智能靠什么“感官”输入？

自动系统的传感器像一个“多语种团队”，各自擅长不同信息：

● 相机：语义丰富，颜色纹理细节多，最像人眼。

● 激光雷达（LiDAR）：几何精确，能把空间结构测得很准，但语义很“寡淡”。

● 毫米波雷达（Radar）：对运动线索敏感，速度等信息强。

● 事件相机（Event camera）：时间分辨率极高，适合高速动态场景。

可见神秘的空间智能，实际上也是由几类常见的传感器和多模态数据作为基本输入，多模态的核心价值不是“堆设备”，而是互补：相机补语义，LiDAR补几何，雷达补运动。和当前的多模态融合算法不同，空间智能面对的真正难点在于：怎么让模型把这些异质信号融合成同一种“可推理的空间表征”。

2.平台与数据集：空间智能的“练功房”长什么样？

聊完数据输入，我们再来看看这些数据输入的集合，也就是数据集长什么样。研究人员通常按平台把数据集生态分成几类，因为平台不同，数据长相就不同：

● 地面自动驾驶：传感器配置全面、规模大、任务密集，常见基准里能看到 KITTI、nuScenes 等代表性数据集名（这里更关键的是“车载多传感器同步与场景多样性”）。

图2｜代表性自动驾驶数据集汇总。表中“Region”表示数据主要来源区域：AS（亚洲）、EU（欧洲）、NA（北美）。传感器配置给出了相机、激光雷达、雷达的数量；数据统计里，“Scenes”表示场景片段/序列数，“Frames”表示标注帧总量；条件信息里，“Weather”表示是否覆盖恶劣天气，“d&n”表示是否包含昼夜场景。“-”表示该项信息未提供或不支持

● 空中无人机：视角更自由、尺度更大、轨迹更长，语义与几何的关联更容易“断线”，因此专门的无人机数据集与基准被单列出来，例如 UAV-3D、UAVScenes 这类方向性的例子。

图3｜无人机相关数据集的时间脉络（2016至今）。“Region”里 Multi 表示跨多个地区/平台采集的数据，Sim 表示仿真合成数据；“Viewpoint”表示视角来源：G（地面视角）、A（空中视角）、AG（空地联合视角）；“Annotations”汇总了这些数据集支持的下游任务类型，用来对比不同数据集更适合训练哪类能力

● 其他平台：轨道、无人船、腿式机器人等更偏长尾场景，环境变化强、传感器退化更常见，反而更考验表征的泛化能力。

但无论哪一类平台，都绕不开同一堵墙：大量数据集依赖昂贵人工标注，这会在规模和泛化上形成瓶颈，因此“从原始传感器数据里自学”成了主流方向之一。

3.预训练方法谱系：从“单项训练”到“多模态合练”

有了数据，接下来就需要考虑如何处理这些数据了，小编这里不罗列晦涩难懂的名词，而是按“传感器之间的信息流向”来分派系，方便各位读者进行理解。研究界常见的三大类是：

● LiDAR-Centric（以LiDAR为主）：把视觉语义蒸馏进 3D 几何表征。

● Camera-Centric（以相机为主）：把几何先验注入 2D 表征，让相机也更“懂空间”。

● Unified Frameworks（统一框架）：不再强调谁教谁，而是把多模态一起放进共享表示空间里联合优化。

下面逐个拆开讲清楚它们在练什么。

3.1 单模态预训练

单模态预训练可以理解成“打地基”：在没有跨模态帮助时，让每种传感器先学会提取可靠特征。比如 LiDAR 数据稀疏、无纹理，就需要专门的目标来学习结构与时序规律；相机则更容易从视频序列里学到一致性与动态线索（这类方法通常被当作后续多模态融合的前提）。

图4｜典型的“仅激光雷达”预训练思路示意。在没有人工标注的前提下，要从稀疏点云里学出稳定的几何表征，研究者常用三条路：(a) 掩码重建（MAE）：把点云遮掉一部分再补回来，用来学习局部结构与几何细节；(b) 对比学习：让不同视角/增强后的同一场景特征保持一致，从而学到更鲁棒的区分能力；© 时间预测：预测未来帧或时序变化，让表征不仅懂“长什么样”，也开始懂“怎么动”

3.2 LiDAR-Centric：给点云“补语义”

LiDAR 的强项是精准 3D 结构，但弱点也很硬：语义稀疏、缺纹理。而视觉基础模型往往带着更强的开放世界语义先验。于是 LiDAR-Centric 的思路是把图像当作训练阶段的“特权信息”，把 2D 的语义的丰富性迁移到 3D 网络里，让点云模型在推理时即便没有相机，也能“补出”语义特征。

直观一点说：这类方法像在教点云“认字”。点云原本只会量尺寸、看轮廓，现在要学会把轮廓和“这是什么东西、有什么意义”绑定起来。

图5｜以激光雷达为主的跨模态预训练方法分类。点云的短板往往在语义上，为了补这块，研究者常在训练阶段把图像当作“额外老师”（推理时不一定必须依赖它）。常见范式包括：(a) 跨模态掩码重建：利用2D引导的遮盖策略，增强点云重建与结构理解；(b) 跨模态对比/蒸馏：要么让相机与点云特征对齐，要么把视觉基础模型里更丰富的开放词汇语义迁移到3D编码器；© 时序跨模态训练：利用视频-点云序列学习运动规律，并约束时空一致性，让表征更“懂动态”

3.3 Camera-Centric：让相机更“懂几何”，开始“想象未来”

相机天然缺少精确深度，靠单帧很难把空间结构讲清楚，所以 Camera-Centric 常见目标之一是“把 2D 语义抬升到可度量空间”，例如把透视视角映射到鸟瞰（BEV）一类统一坐标中，用序列约束来学几何一致性。

更有意思的一条趋势，是相机不再只做静态识别，而是被推向预测式世界建模：通过视频预测未来状态、通过可微渲染把几何表示变成“能被重投影检验的东西”，逼模型理解时间演化与物理约束。

这里甚至出现把 3D Gaussian Splatting（3DGS）这类可渲染 3D 表示纳入预训练循环的做法，用渲染一致性来学习更连续、更高精度的几何表示，并把方法推向更像“神经模拟器”的方向。

图6｜以相机为主的预训练思路示意（用激光雷达“教”视觉）。这类方法的目标是把3D几何先验注入2D视觉骨干网络，让相机不只会认物体，也更会“懂空间”。常见做法包括：(a) 深度估计：显式学习几何结构；(b) 特征蒸馏：对齐2D与3D的潜在特征空间；© 预测式学习与(d) 生成式渲染：让视觉模型能从单目输入补全/想象3D结构，并预测未来的场景变化，把能力推向更强的动态理解

3.4 Unified Frameworks：多模态一起练，学“模态无关表征”

统一框架的目标很直接：不让系统依赖“某个模态永远在线”，而是学到一种更稳的共享表征。典型流程会把多模态输入先做 masking（随机遮盖），再做 alignment（对齐）和 reconstruction（重建）等阶段式训练，让相机编码器和 LiDAR 编码器在同一个潜空间里协同优化。

它的价值在于：当某个传感器退化或缺失时，系统不至于立刻“失明”，因为表征本身更接近“任务需要的空间理解”，而不是某个模态的原始纹理，这样可以有效应对不同的外部场景，比如雨夜中让以LiDAR为主相机为辅，从而有效避免单一传感器退化对系统造成的影响。

图7｜统一的多模态预训练框架示意。不同于“谁教谁”的非对称蒸馏，统一框架通常把相机与激光雷达编码器放进同一个共享表征空间里联合优化。这样更容易学到模态无关的特征，一方面保留视觉的语义丰富性，另一方面吸收点云的几何精确性，为空间智能提供更完整、更稳的底座

4.空间智能发展趋势展望

如果把 2020–2025 的方法放在一条时间线上，会看到清晰的范式迁移：早期更偏单模态自监督，近几年明显涌现跨模态协同（相机/LiDAR 互教）与统一框架，并进一步指向生成式世界模型。

图8｜代表性预训练方法的时间演进（2020–2025）。这条时间线展示了自动系统表征学习范式的变化：早期方法更多依赖单一模态的自监督学习（例如只用激光雷达做对比学习）；从2023年左右开始，跨模态协同明显升温，出现大量以相机/激光雷达为核心的互补式训练，以及更进一步的统一预训练框架，最终把方向推向更强的生成式世界模型与更完整的空间智能能力

与此同时，“基础模型”的角色也在变化：从提供可迁移的视觉先验，逐步走向更统一的框架，甚至把视觉、语言、动作整合进一个推理体系，目标不只是识别对象，而是模拟未来并规划行动。

一句话总结这股潮流：空间智能正在从“看懂现在”走向“想象未来”，从“感知模块”走向“决策闭环”。

此外，把空间智能的复杂表征练出来不是为了好看，最终都要落在任务上，常见的下游方向包括：

● 3D 感知：检测、分割等，让系统更稳定地理解“有哪些物体、它们在哪里”。

● 占据表达（Occupancy）：把世界变成“哪里是空、哪里是实、哪里可能可通行”的空间表格或体素表示。

● 规划与开放世界 grounding：把感知结果真正接到行动层，支持更开放的理解与规划。

从“应用清单”里能看出一个信号：空间智能的评价不再只看单项指标，而越来越看它能不能支撑更长链路的任务闭环。