定位、感知、融合长期演进综述
- SLAM 框架
- SLAM分类
- 视觉SLAM——VIO
- ORB-SLAM系列
- MSCKF系列
- VINS-Fusion
- 激光SLAM——LIO
- 3D激光SLAM
- 视觉SLAM与激光SLAM融合
- FAST-LIO2
- 基于深度学习的SLAM
- 高斯语义SLAM
- Lightning-LM
- 技术架构与核心功能
- SLAM涉及的各种算法模块
- 特征提取算法
- 特征点检测算法
- 描述子算法
- SuperPoint
- 特征匹配算法
- Brute-Froce Matcher
- KNN匹配
- RANSAC消除错配
- 常见匹配策略
- SuperGlue
- 图像对齐——直接法
- 光度误差最小化
- 光流法
- 点云特征提取与匹配
- 点云特征提取
- PFH算法
- PFH 计算步骤
- loam及其衍生的特征提取方法
- 点云匹配
- 回环检测
- 优化算法
- 图优化
- 非线性最小二乘优化
- 滤波算法
- SLAM的各种数据集
- 感知新范式——BEV
- 空间智能——Spatial AI
- 具身智能——VLA
- TrackVLA++
- 长期演进
- References
- SLAM 框架
- ORB-SLAM
- MSCKF
- VINS-Fusion
- LIO
- 高斯语义SLAM
- Lightning-LM
- SLAM涉及的各种算法模块
- SLAM的各种数据集
- BEV
- Spatial AI
- VLA
这是一份文献综述,力求将定位、感知、融合框架的算法、模块、数据集以及长期演进方向做一个汇总。无原创的东西,搬运的都是别人的文档,也基本都在References里面单独列出来了,如有遗漏,请告知。
SLAM 框架
传感器数据:主要用于采集实际环境中的各类型原始数据。包括激光雷达(LiDAR)、相机(Camera)、惯性测量单元(IMU)、全球导航卫星系统(GNSS)等数据。
前端里程计:主要用于不同时刻间移动目标相对位置的估算。包括特征匹配、直接配准等算法的应用。
后端优化:主要用于优化视觉里程计的累计误差。包括滤波器、图优化等算法应用。
地图构建:用于二维/三维/点云/语义地图的构建。
回环检测:主要用于空间累积误差消除。
SLAM分类
视觉SLAM——VIO
典型的有ORB-SLAM、MSCKF、VINS这几个系列,每个系列又有多个不同的差异化版本。
ORB-SLAM系列
- 特征提取:采用ORB(Oriented FAST and Rotated BRIEF)特征,兼具计算效率与旋转/缩放不变性,可在CPU上实时提取。
- 核心流程:
- 跟踪线程(实时位姿估计)。
- 局部建图线程(优化局部地图)。
- 闭环检测线程(全局优化与重定位)。
- 多传感器支持:ORB-SLAM 3 融合 IMU数据,GNSS ORB-SLAM 3 进一步融合 GNSS数据。
MSCKF系列
MSCKF全称Multi-State Constraint Kalman Filter(多状态约束下的Kalman滤波器),是一种基于滤波的VIO算法,MSCKF在EKF框架下融合IMU和视觉信息,相较于单纯的VO算法,MSCKF能够适应更剧烈的运动、一定时间的纹理缺失等,具有更高的鲁棒性;相较于基于优化的VIO算法(VINS,OKVIS),MSCKF精度相当,速度更快,适合在计算资源有限的嵌入式平台运行。
MSCKF系列比较有代表性的是 S-MSCKF 和 Open VINS。
VINS-Fusion
VINS-Fusion 是由香港科技大学开源的视觉惯性SLAM算法,是在 VINS-Mono 基础上拓展出的相机+IMU+GPS多传感器融合框架,它包含这几个过程:特征提取与发布;IMU提取与预积分;初始化;滑窗与优化;回环检测。
激光SLAM——LIO
3D激光SLAM
- Cartographer:由Google开发,是目前精度最高、实时性、鲁棒性最好、二次开发最为便捷的开源SLAM算法之一。引入子图(submap)概念,使用 CSM和梯度优化相结合的方法使帧与子图进行匹配。后端基于图优化算法,将当前激 光帧和之前建立的所有子图都加入闭环检测模块,采用分支定界法提升搜索速度。
- LOAM:根据曲率大小将特征点分类为边缘特征点和平面特征点,缺少后端优化和回环检测模块。
- LeGO-LOAM:引入关键帧概念,使用关键帧及其局部范围内的数据帧组成 loop-submap。基于地面点的优化更加鲁棒精确,计算量更小。
- LIO-SAM: LIO-SAM是TixiaoShan在2020年IROS发表的Lego-LOAM续作。 实际上也是Lego-LOAM的扩展版本,添加了IMU预积分因子和GPS因子。
- LVI-SAM: LVI-SAM是Tixiao Shan发表在ICRA 2021上的最新工作。 提出了一个基于图优化的多传感器融合框架,具有多个子系统: 视觉惯性子系统(VIS) 和 雷达惯性子系统 (LIS); 单目+雷达+imu融合。鲁棒性:任一子系统失效,不会导致整个系统挂掉。
- Loam_livox:针对Livox新型固态激光雷达扫描特性,对有效点筛选和特征提取部分进行优化
视觉SLAM与激光SLAM融合
视觉SLAM与激光SLAM的融合是主流的多传感器融合策略,结合两者的优势并弥补各自的不足,从而提升定位、建图和环境感知的精度与鲁棒性。
- FAST-LIO:使用激光雷达与 IMU 紧耦合的误差状态迭代卡尔曼滤波算法。提 出一个新的计算卡尔曼增益的公式,使计算量不再依赖于测量维数,而是依赖于状态维数,极大地减少了计算量。
- FAST-LIO2:为了使算法能自然适应不同扫描模式的激光雷达和实现更快的计算,省略了耗时的特征提取模块,采用直接法将所有点云数据统一处理。
- Faster-LIO:在FAST-LIO2的基础上使用一种增量式稀疏体素(iVox)数据结构代替ikd-tree,可以有效降低点云配准的时间
- FAST-LIVO:在FAST-LIO2的LIO系统基础上使用相机传感器加入VIO子系统,在测量层面实现两个传感器的耦合,在激光雷达退化场景和光线变化剧烈的场景下依旧能可靠运行。
FAST-LIO2
FAST-LIVO2 是香港大学开源的SLAM算法,是一种融合激光雷达(LiDAR)、惯性测量单元IMU和视觉信息的高效定位与建图系统,核心采用误差状态迭代卡尔曼滤波器(ESIKF)与顺序更新策略,实现精确状态估计。不同于传统方法,FAST-LIVO2 避免特征提取,直接处理原始 LiDAR 和图像数据,提升了计算效率与系统鲁棒性。#### 技术亮点
- 直接法融合策略,抛弃繁琐特征提取
LiDAR模块直接对原始点云进行配准,无需提取边缘或平面特征。视觉模块通过最小化光度误差进行图像对齐,避免了传统的特征点提取过程。 - 统一体素地图,几何与纹理深度协同
系统采用统一的体素地图结构,LiDAR构建几何结构,图像patch附着于LiDAR平面形成“视觉地图点”,实现稠密彩色地图构建。该策略不仅优化了数据结构,也保障了多源信息的一致性融合。 - 图像对齐与鲁棒性增强
通过最小化光度误差进行稀疏图像对齐,动态更新参考图像patch;在LiDAR盲区或FoV不足时,按需射线投影补齐盲区;实时估算曝光时间,适应剧烈光照变化;FAST-LIVO2 同时提升了图像对齐精度与在光照骤变或点云缺失场景下的鲁棒性。 - ESIKF惯序更新,系统收敛更快更稳
采用误差状态迭代卡尔曼滤波器(ESIKF),对 LiDAR 与图像依次更新状态,解决了多源观测维度不一致的问题,极大提高融合精度与实时性。 - 优化资源利用
为了适配资源受限的嵌入式平台,FAST-LIVO2 对系统架构与算法流程进行了深度优化。实测表明,FAST-LIVO2 能够在 RK3588、Jetson Orin NX、RB5 等低功耗 ARM 平台上稳定运行,单帧处理时延控制在 78 ms 以内,满足实时导航与建图的需求。
基于深度学习的SLAM
深度学习与SLAM的结合主要应用于系统中的几个模块,如特征提取和匹配、回环检测、构建语义。
- SUMA++:基于激光雷达的语义 SLAM,使用 RangeNet++对点云进行语义分割,根据语义信息剔除动态目标,再将语义信息融入系统,与几何信息一起建 立约束,从而提高定位和建图精度。
- SA-LOAM:提出一种语义辅助的 ICP 算法,并在闭环检测模块中集成基于语义图的位置识别方法,适合在大规模场景中构建全局一致性语义地图。
- ASL-SLAM:提出一种基于活动语义的回环检测方法,通过IMU传感器对Z轴角速度和加速度的分析来检测转弯和通过减速带两种语义。提出一种自监督的激光里程计,在投影的强度图像上使用SuperPoint提取特征点,使用传统ICP方法估算位姿后用于在线训练网络。
- EfficientLO-Net:是第一个完全端到端的高效3D激光雷达里程计框架,提出了基于投影感知的三维点云表示 方法和特征学习方法。
高斯语义SLAM
GS-SLAM(通常指基于高斯的SLAM,如SGS-SLAM)与语义SLAM是同时定位与地图构建(SLAM)领域中的两种相关但侧重不同的技术范式。语义SLAM的核心目标是在构建环境几何结构的同时,为地图元素赋予语义标签(如“椅子”、“道路”),以增强场景理解能力。而GS-SLAM则强调使用三维高斯表示作为场景几何的显式编码方式,以实现稠密重建和高效渲染。
当前研究趋势是将两者结合,形成“高斯语义SLAM”框架,高斯语义SLAM(Simultaneous Localization and Mapping)是将3D高斯溅射(3D Gaussian Splatting)技术与语义分割相结合的前沿领域,旨在构建同时包含几何细节和语义信息的稠密场景表示。例如:
- GS4:GS4是首个基于泛化高斯溅射的语义SLAM系统,旨在解决传统方法的三大瓶颈。传统SLAM算法如ORB-SLAM依赖稀疏特征点,难以构建稠密地图;而神经辐射场(NeRF)方法虽提升重建质量,却需高昂计算成本与逐场景优化。高斯溅射技术虽加速渲染,仍面临高斯冗余、语义分离和泛化性差的问题。GS4通过端到端前馈网络直接预测3D语义高斯参数,实现三大突破:泛化能力上可直接处理未知场景而无需测试时优化;效率上仅需基线方法10%的高斯数量(ScanNet平均29.5万对比基线246.6万);语义层面则共享主干网络同步预测几何与语义,避免分割模型的开销。在ScanNet数据集上,GS4以22.71dB的峰值信噪比刷新渲染记录,并在NYUv2、TUM等未训练数据集上实现零样本泛化。
- Hi-SLAM:该方法采用分层分类表示,利用大型语言模型(LLM)将语义信息编码为树结构,显著降低存储和训练成本。其语义损失函数支持层级间和跨层级优化,增强了场景理解能力。Hi-SLAM在复杂场景中可处理超过500个语义类别,渲染帧率高达3000 FPS(无语义)和2000 FPS(含语义),但主要优势在于可扩展性而非实时性。
- SemGauss-SLAM: SemGauss-SLAM 是一种基于3D高斯表示的稠密语义SLAM(Simultaneous Localization and Mapping)系统,由上海交通大学团队提出。它是首个将语义特征嵌入3D高斯表示中以实现精确3D语义建图、鲁棒相机跟踪和高质量实时渲染的方法。
Lightning-LM
Lightning-LM是高翔博士团队于2025年11月开源的工业级激光雷达SLAM框架,整合了激光-IMU定位与建图算法。
技术架构与核心功能
- 多传感器融合架构:支持各种片定制化传感器输入,兼容IMU数据同步处理。
- 模块化设计:包含基础工具(common/utils)、输入输出接口(io/wrapper)、激光里程计核心算法(core/lio)三大层级。
- 实时定位能力:通过LocSystem模块实现在线位姿估计,支持自定义初始位姿设置与多线程处理。
SLAM涉及的各种算法模块
特征提取算法
特征提取旨在识别图像中具有区分度的点、线或区域,通常分为特征点检测和(特征点周围区域的局部信息)描述子生成两部分。
特征点检测算法
以FAST(Features from Accelerated Segment Test)为代表,通过比较像素邻域灰度值快速检测角点,计算效率高但缺乏方向和尺度不变性。 ORB(Oriented FAST)算法改进了FAST,通过图像金字塔实现尺度不变性,并利用灰度质心法赋予特征点方向信息,提升旋转不变性。
描述子算法
描述子编码特征点点周围区域的局部信息,而描述子算法为每个关键点生成向量表示,便于后续匹配。
- BRIEF(Binary Robust Independent Elementary Features)是一种二进制描述子,通过比较特征点邻域内像素对的灰度值生成0/1向量,计算高效且适合实时应用。
- SIFT(Scale-Invariant Feature Transform)和 SURF(Speeded-Up Robust Features)则通过高斯差分(DoG)和梯度统计生成描述子,对光照、旋转和尺度变化具有较强鲁棒性,但计算复杂度较高。
- ORB(Oriented FAST and Rotated BRIEF):结合FAST角点检测和BRIEF二进制描述子,通过方向加权实现旋转不变性,平衡了性能与效率,广泛应用于实时SLAM系统。
SuperPoint
SuperPoint 是基于自监督训练的特征点检测和描述符提取方法,是2018年MagicLeap发表的一篇文章中提出的。
特征匹配算法
Brute-Froce Matcher
计算某一个特征点描述子与其他所有特征点描述子之间的距离,然后将得到的距离进行排序,取距离最近的一个作为匹配点。这种方法简单粗暴,其结果也是显而易见的,通过上面的匹配结果,也可以看出有大量的错误匹配,这就需要使用一些机制来过滤掉错误的匹配。
Opencv库封装了BFMatcher函数进行暴力匹配,该函数的第一个参数normType中,SIFT、SURF特征点采用NORM_L1,NORM_L1也就是L1、L2范数,ORB、BRISK、BRIEF的描述子是二进制码串,所以选用NORM_HAMMING,也就是采用汉明距离法匹配。
KNN匹配
K近邻匹配,在匹配的时候选择K个和特征点最相似的点,如果这K个点之间的区别足够大,则选择最相似的那个点作为匹配点,通常选择K = 2。对每个匹配返回两个最近邻的匹配,如果第一匹配和第二匹配距离比率足够大(向量距离足够远),则认为这是一个正确的匹配,比率的阈值通常在2左右。
// Opencv封装了该方法:bfMatcher->knnMatch(descriptors1,descriptors2,knnMatches,2);RANSAC消除错配
RANSAC(Random SAmple Consensus随机采样一致性算法),是在一组含有外点"的数 外点"的数据中,不断迭代,最终正确估计出最优参数模型的算法,其基本思想为:
- 在样本 n 中随机采样 k 个点
- 对 k 个点进行模型拟合
- 计算其它点到该拟合模型的距离,并设置阈值,若大于阈值为外点舍弃,小于阈值为内点,统计内点个数。阈值为经验值,由具体应用和数据集决定。
- 以新的内点为基础,再次进行步骤 2,得到新的拟合模型,迭代 m 次,选择内点数最多的模型,即为最优模型。
常见匹配策略
- 基于投影的匹配:利用匀速运动模型或已估计的位姿,将前一帧的3D地图点投影到当前帧图像平面,在投影点附近搜索匹配点,这是跟踪阶段常用的方法。
- 基于词袋模型(Bow)的匹配:在位姿未知或丢失时,通过比较当前帧与关键帧的特征向量(词袋)来快速找到可能的匹配关键帧,常用于重定位和回环检测。
- 三角测量匹配:对于未被跟踪到的特征点,通过在共视关键帧中寻找匹配点,利用三角测量计算其3D坐标,从而构建新的地图点。
SuperGlue
SuperGlue在2020年由MagicLeap发表,引入了Transformer实现了一种2D特征点匹配方法,SuperGlue的推出是SLAM算法迈向端到端深度学习的一个重要里程碑。
图像对齐——直接法
FAST-LIO借助视觉光度误差模型直接做图像对齐,避免了传统特征点提取与匹配的图像对齐方法。
光度误差最小化
图像对齐的目标是找到一个几何变换(如单应性变换),使得源图像与目标图像在空间上对齐,同时最小化像素强度差异(即光度误差)。光度误差通常定义为两幅图像在重叠区域的像素值差的平方和(如均方误差)。这种方法更关注图像的整体亮度一致性,而非局部特征点。
- 初始化变换参数:假设一个初始变换(如恒等变换或基于粗略估计的参数)。
- 迭代优化:使用梯度下降或类似算法(如Levenberg-Marquardt)更新参数 (ө),以最小化光度误差。每一步计算误差梯度并调整变换:
- 计算图像差值和梯度。
- 更新变换参数(例如,通过最小化误差的雅可比矩阵)。
- 终止条件:当误差变化小于阈值或达到最大迭代次数时停止。
光流法
光流法基于灰度不变假设(同一空间点在连续帧间的亮度保持不变)和小运动假设(相邻帧间特征点位移较小),通过求解像素点的运动向量来追踪特征点。2在VINS前端,光流法替代了传统的特征匹配,直接利用灰度信息计算特征点对应关系,减少了计算开销,并为后端优化提供初始位姿估计。
Shi-Tomasi角点检测及光流法追踪——复现VINS前端视觉数据处理
视觉SLAM前端——OpenVINS和VINS-Fusion光流跟踪对比
点云特征提取与匹配
点云特征提取
最常见的有利用法向量提取特征(典型的PFH算法),利用曲率提取特征(loam及其一系列衍生方法所用的方法)。
PFH算法
PFH (Point Feature Histograms) 是一种局部几何特征描述子,用于描述点云中的一个点及其邻域的几何信息。PFH 通过分析点与其邻域点之间的相对关系(包括法线方向、角度、距离等)来构建一个直方图,描述该点的局部几何特征。
PFH 是全局不变的,即旋转、平移不影响它,适合用于点云匹配、特征匹配、配准等任务。
PFH 计算步骤
- 法线估计: 首先,计算每个点及其邻域的法线方向。可以使用 K邻域 方法进行法线估计。
- 角度和距离计算: 对于每对邻域点 pi 和 pj,计算两点之间的 角度 和 距离。此外,还需要计算点对法线之间的夹角。
- 直方图构建: 通过对这些计算得到的特征(角度、法线夹角、距离)构建直方图。这个直方图反映了该点的局部几何结构。
- 描述子生成: 将这些直方图信息编码成一个 高维特征向量,作为该点的 PFH 描述子
loam及其衍生的特征提取方法
loam及其衍生型的特征提取方法都是对原始点云提取Corner Point和Plane Point,而提取特征点的依据就是曲率,因此这类方法一般分三个步骤:
- 计算曲率
- 标记遮挡和平行点
- 提取surface和corner特征
可以参考 LIO-SAM 框架的特征点提取部分的代码 featureExtraction.cpp。
点云匹配
主要就是 PCL 库的 ICP 和 NDT 算法的应用,可以参考 PCL 特征提取与匹配。
回环检测
回环检测本质上是一种数据相似性检测算法,原理是通过识别机器人是否回到历史位置,建立位姿约束以优化全局地图,识别场景中的重复特征以修正累积误差,纠正长期的里程计漂移实现全局地图的一致性。
常见回环检测算法如下表:
| 算法类别 | 原理 | 特点 | 优势 | 劣势 |
|---|---|---|---|---|
| 词袋模型 | 特征聚类为单词,TF-IDF加权相似度 | 依赖手工特征,倒排索引加速检索 | 实时性高,适合移动端 | 忽略空间信息,误判相似场景 |
| 概率改进模型 | 贝叶斯滤波动态更新概率分布 | 结合里程计与场景动态性 | 减少误检,适应动态环境 | 计算复杂,参数敏感 |
| 深度学习模型 | CNN/自编码器提取高层特征,近似搜索加速匹配 | 端到端特征学习,多尺度融合 | 鲁棒性强,适应复杂变化 | 需大量数据,计算资源高 |
| 激光全局特征 | 几何特征(曲率、质心)构建不变性描述子 | 依赖点云结构,快速配准优化 | 适用于低纹理环境,实时性高 | 对点云质量敏感,非结构化环境适应性差 |
| 无线信号辅助 | 无线信号筛选候选帧,减少搜索空间 | 多传感器融合,NLoS场景适用 | 计算效率大幅提升,避免灾难性失败 | 依赖信号稳定性,多机协同限制 |
| 3D语义共视图 | 语义标签+几何信息联合匹配 | 多模态融合,高层语义增强 | 减少重复场景误判,支持语义地图 | 需高性能分割模型,标注数据依赖 |
优化算法
图优化
图优化是一种将SLAM优化问题建模为图结构的方法:
- 节点代表机器人的位姿(如位置和方向)。
- 边代表位姿之间的空间约束(例如,通过传感器观测得到的相对位移或姿态变化)。
图优化的目标是构建这个图,并找到一组最优的机器人位姿配置,使得所有观测数据与预测值之间的误差最小。这本质上是一个全局优化问题,旨在最小化整个路径的累积误差。
常用的工具库 :G2O、GTSAM。
非线性最小二乘优化
非线性最小二乘优化是解决图优化问题的数学工具,常用的库是Ceres。它用于估计系统状态(如机器人位姿),使预测值与实际观测值的误差平方和最小。
滤波算法
| 算法 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|
| 卡尔曼滤波(KF) | 适用于线性系统且噪声服从高斯分布的场景 | 在满足线性高斯假设时,能提供最优线性无偏估计,收敛快精度高 | 仅适用于线性系统,仅对高斯噪声有效;对系统模型和噪声协方差矩阵的准确性敏感,模型失配会导致估计性能下降 |
| 扩展卡尔曼滤波(EKF) | 通过一阶泰勒展开对非线性系统进行局部线性化,扩展了KF的应用范围 | 能处理非线性系统,算法结构与KF相似,易于在KF基础上实现;计算开销相对可控,尤其适用于状态维度不高的系统 | 当系统高度非线性时,一阶泰勒展开误差可能非常大;需计算雅克比矩阵,增加了实现复杂度;高阶展开(如二阶EKF)虽可提升精度但计算量显著增加;对初始值和噪声统计特性敏感,鲁棒性较弱 |
| 无迹卡尔曼滤波(UKF) | 采用无迹变换通过确定性采样点(Sigma点)直接在概率分布上传递非线性变换,避免了线性化 | 在非线性系统中通常比EKF更精确,因为避免了线性化误差,且无需计算雅克比矩阵;对非线性程度较高的系统表现更鲁棒,收敛性更好 | 计算复杂度较高,尤其当状态维度增加时,Sigma点数量呈指数增长;需要手动调整无迹变换参数(如缩放因子),参数选择不当可能影响性能 |
| 多状态约束下的卡尔曼滤波(MSCKF) | 解决EKF的维数爆炸问题 | 高效处理多维状态;计算量小,实时性好;噪声抑制与数据融合 | 线性与高斯假设限制;对模型参数敏感;多状态约束通常涉及高维状态空间,矩阵运算(如协方差矩阵更新)的计算量显著上升;对初始状态和误差协方差的设置敏感 |
| 粒子滤波器(PF) | 一种基于蒙特卡罗方法的非参数滤波算法,通过随机样本(粒子)近似后验概率分布,能表达非高斯噪声 | 无需对系统模型或噪声分布做严格假设,能处理强非线性、非高斯噪声甚至多模态问题;适用性广,可直接应用于任意复杂系统,无需线性化或高斯假设 | 计算量极大,粒子数量需随状态维度增加而指数级增长,实时性较差;存在“维度灾难”问题,高维系统中易出现粒子退化(即少数粒子主导估计);需要大量调参(如粒子数、重采样策略),实现复杂度高 |
SLAM的各种数据集
- KITTI:包含视觉图像、激光雷达点云、IMU、GPS等数据。
- EuRoC:用于室内MAV(Micro Aerial Vehicle,微型飞行器)的双目+IMU数据集,包含两个场景:苏黎世联邦理工学院ETH的一个machine hall,普通房间。
- SemanticKITTI:在KITTI数据集的基础上对点云数据进行标注,分类为28类语义,实现全场景分割。
- ApolloScape:数据集使用了高精度地图采集车,是目前行业内环境最复杂、标注最精准、数据量最大的三维 自动驾驶公开数据集。
- NTU-VIRAL:搭载激光雷达、相机、IMU和超带宽填补了SLAM领域无人机数据集的空白。
- TUM-RGBD:TUM RGB-D数据集是由德国慕尼黑工业大学(TUM)创建的一个广泛使用的RGB-D(彩色图像与深度图像)数据集,主要用于评估RGB-D SLAM(同步定位与地图构建)系统、三维重建等算法的性能。
- Oxford RobotCar:Oxford Radar RobotCar 数据集是 Oxford RobotCar 数据集的雷达扩展。它已使用来自 Navtech CTS350-X 毫米波 FMCW 雷达和 Dual Velodyne HDL-32E LIDAR 的数据进行扩展,该雷达具有优化的地面实况雷达里程计,可在英国牛津周围行驶 280 公里(除了原始牛津 RobotCar 中的所有传感器数据集)。
- USVInland:USVInland是第一个用于内河航道无人水面飞行器的多传感器数据集。利用自动驾驶船,在内河航道进行手动和自动航行时,记录来自激光雷达、立体相机、毫米波雷达、IMU等传感器的数据。
感知新范式——BEV
BEV: Birds Eyes View,在自动驾驶(Autonomous Driving,简称AD)领域逐渐普及后变成了这个行业内的一种术语,是相对于SLAM的另外一种感知技术。
SLAM和BEV在AD领域里都是协助控制系统了解车辆周围状况的感知技术:知道自己在哪,有哪些障碍物,障碍物在自己的什么方位,距离多远,哪些障碍物是静态的那些是移动的,等等相关信息,便于随后做出驾驶决策。
从技术实现来看,SLAM偏向于传统数学工具,包括各种几何/概率论/图论/群论相关的软件包,而BEV基本上清一色的基于深度神经网络DNN。两者最好不要对立着看,很多情况下可以互补。
空间智能——Spatial AI
空间智能Spatial AI的概念,早在18年的《FutureMapping: The Computational Structure of Spatial AI》白皮书中就被Andrew教授提出了。Andrew教授将其视为视觉SLAM技术的延伸和未来发展方向。 他将Spatial AI定义为使机器能够理解、映射并智能交互三维物理空间的技术,其目标是让设备(如机器人)具备像人类一样感知和理解环境的能力。Andrew教授的Gaussian Splatting SLAM是最早的高斯SLAM系统之一,该工作率先将3DGS从离线重建扩展到在线SLAM领域,为后续研究(如GS-LIVO、FAST-LIVO2等)奠定了基础。
具身智能——VLA
具身智能(Embodied Intelligence)是人工智能与机器人学交叉的前沿领域,强调智能体通过身体与环境的动态交互实现自主学习和进化,其核心在于将感知、行动与认知深度融合。
VLA (Vision-Language-Action) 架构是机器人具身智能领域的核心创新范式,它将视觉(Vision)、语言(Language)和动作(Action)模态统一集成,实现从自然语言指令和环境观察直接生成低级机器人控制命令的端到端映射。不同于传统分层架构(感知→规划→控制),VLA 通过大模型预训练和机器人数据微调,赋予机器人“看一眼、听一句、就动手”的零样本泛化能力。
TrackVLA++
TrackVLA++ 是由北京大学等机构联合提出的一种新型视觉-语言-动作(VLA)模型,旨在解决具身机器人在动态环境中进行视觉跟踪时的核心挑战,如目标遮挡、干扰物混淆和记忆漂移等问题。该模型通过引入显式空间推理和长时目标记忆机制,在仿真和真实世界场景中均实现了当前最优(SOTA)性能。
长期演进
References
SLAM 框架
SLAM快速入门
激光SLAM算法综述
ORB-SLAM
视觉SLAM开源算法ORB-SLAM3 原理与代码解析
ORB_SLAM3 算法框架解析
GNSS ORB SLAM3
MSCKF
ICRA07-MSCKF
S-MSCKF
Open VINS
MSCKF那些事
OpenVINS
VINS-Fusion
VINS-Fusion
【SLAM】VINS-MONO解析——综述
【SLAM】VINS-Fusion解析——流程
LIO
SLAM学习笔记(十九)开源3D激光SLAM总结大全
港大今年开源了哪些SLAM算法?
LIO-SAM
高斯语义SLAM
GS4:首个泛化高斯溅射语义SLAM框架,十倍效率三维建图
带你读完3d高斯语义SLAM:Hi-SLAM
上交发布!SEMGAUSS-SLAM: 稠密语义Gaussian抛雪球SLAM
语义SLAM基础与论文解析
Lightning-LM
Lightning-LM
SLAM涉及的各种算法模块
语义SLAM | 深度学习用于特征提取 : SuperPoint(一)
slam-特征点匹配
SuperPoint
SuperGlue
Shi-Tomasi角点检测及光流法追踪——复现VINS前端视觉数据处理
视觉SLAM前端——OpenVINS和VINS-Fusion光流跟踪对比
PCL 特征提取与匹配
常用回环检测算法对比(SLAM)
SLAM的各种数据集
KITTI
EuRoC
SemanticKITTI
SemanticKITTIAPI
ApolloScape
NTU-VIRAL
TUM-RGBD
Oxford RobotCar
USVInland
BEV
自动驾驶~BEV和SLAM
Spatial AI
从SLAM到Spatial AI,传统SLAMer该何去何从?
CVPR2024 | Gaussian Splatting SLAM
VLA
State of VLA Research at ICLR 2026
最火VLA,看这一篇综述就够了
VLA 架构细节分析(2025 年 11 月现状)
万字长文,读懂具身智能的“大脑”:一文详解视觉-语言-动作(VLA)大模型
TrackVLA++:具身视觉跟踪中的推理增强与记忆持续机制