news 2026/6/26 3:45:21

视觉感知十年演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
视觉感知十年演进

视觉感知(Visual Perception)的十年(2015–2025),是从“识别照片里的像素”向“重建实时三维物理世界”的跨越。

视觉感知是自动驾驶的“眼睛”。这十年间,视觉算法完成了从 2D 到 3D、从局部到全局、从“特征识别”到“几何占位”的彻底重构。


一、 演进三大阶段:从“画框”到“造世界”

1. 2D 卷积与目标检测阶段 (2015–2018) —— “图像识别”
  • 主流算法:CNN(卷积神经网络),如 YOLO 系列、Faster R-CNN。
  • 特征:算法在单帧 2D 图像上运行,主要任务是给车辆、行人画矩形框(Bounding Box)。
  • 局限性:*深度缺失:2D 框很难准确判断物体的真实距离和 3D 形态。
  • 后融合难题:多个摄像头的感知结果在后处理阶段进行硬拼接,经常出现物体在画面交界处“重影”或“断开”的情况。
2. BEV 与 Transformer 时代 (2019–2022) —— “俯视图统一”
  • 里程碑:特斯拉在 2021 年 AI Day 普及了BEV(鸟瞰图)架构。

  • 技术突破:

  • 空间投影:通过 Transformer 架构将多个摄像头的 2D 图像特征直接投影到统一的 3D 俯视图空间(BEV)。

  • 时序融合:算法开始引入“时间”维度,能够通过多帧画面计算物体的速度、加速度,并解决物体被临时遮挡后的记忆问题。

  • 意义:视觉感知从此不再是单纯的图像分类,而是在构建一张实时的、围绕车辆的动态 3D 小地图。

3. 占用网络与生成式 AI 时代 (2023–2025) —— “空间占位”
  • 主流技术:Occupancy Network(占用网络 / 占据栅格)VLM(视觉语言模型)
  • 2025 现状:*通用障碍物识别:2025 年的算法(如华为 ADS 3.0、小米 SU7 的感知架构)不再纠结“前方是什么”,而是判断“前方 坐标的空间是否被占用”。这解决了识别不出侧翻车辆、散落纸箱、施工围栏等异形物体的问题。
  • 语义理解:视觉系统能“读懂”路牌文字、施工牌信息,甚至识别交警的手势。

二、 核心维度十年对比表 (2015 vs 2025)

维度2015 (感知 1.0)2025 (感知 3.0)核心演进点
基础模型纯 CNN (ResNet 等)Transformer / VLM实现了全局信息的注意力关联
感知空间2D 图像平面4D 时空占用空间 (Occupancy)实现了对物理世界的几何级重建
目标范围预定义的白名单物体通用障碍物 (General Obstacles)彻底解决了“长尾场景”识别难题
感知精度像素级分类体素级 (Voxel) 占据预测极大地提升了异形物体的避障能力
系统延时以上** (硬件加速推理)**实时性足以支持高速场景紧急避障

三、 2025 年的技术巅峰:通感一体与具身视觉

在 2025 年,视觉感知已经进化为一种**“全息物理引擎”**:

  1. 神经场景重建 (Neural Scene Reconstruction):
    2025 年的视觉系统结合了NeRF(神经辐射场)高斯泼溅 (Gaussian Splatting)技术。车辆在行驶时不仅在看,还在实时对周围环境进行三维建模。这些回传的数据可以自动转化为数字孪生,供算法进行离线训练。
  2. eBPF 内核级感知监控:
    由于感知模型变得极其庞大(数十亿参数),2025 年的架构引入了eBPF 监控。它在内核层实时跟踪“摄像头曝光 神经网络推理 物体坐标输出”的全链路时延。如果检测到显存由于复杂路口计算量激增而导致丢帧,eBPF 会即刻触发降级策略,保障安全核心感知不中断。
  3. 弱势群体(VRU)意图感知:
    视觉感知现在能识别行人的骨架姿态。通过分析路边行人的重心偏移和视线方向,2025 年的系统能提前 预判行人是否有横穿马路的冲动。

四、 总结:从“看见”到“认知”

过去十年的演进,是将视觉感知从一种**“二维分类器”打造成了机器人的“生物视觉本能”**。

  • 2015 年:视觉在告诉计算机“这张图里有个色块像一辆车”。
  • 2025 年:视觉在告诉车辆“你面前 5 米处有一个占据 空间、正以 速度斜向切入的刚性障碍物”。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 7:12:21

Claude Code:进入dash模式

Claude Code在命令行界面,可以通过输入! dash cmd完成dash命令的操作,比如: 可以看到,可以通过dash模式执行dash命令

作者头像 李华
网站建设 2026/6/23 7:15:03

AI法律咨询系统:用技术打破法律服务壁垒

提到法律咨询,不少人会联想到高昂费用、复杂流程和地域限制。而AI法律咨询系统的出现,正通过技术革新重构法律服务生态,让专业法律支持触手可及。它并非简单的“法条检索工具”,而是融合多重技术的智能服务体,核心价值…

作者头像 李华
网站建设 2026/6/25 20:47:13

简单明了3种如何将Python彻底卸载干净

✅ 包含编程资料、学习路线图、源代码、软件安装包等!【[点击这里]】! 通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装。所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何…

作者头像 李华
网站建设 2026/6/9 22:46:44

[嵌入式系统-170]:电机不精确理解与纠正:“直流电机是通过电平信号控制电机的连续运转,步进电机通过电平信号开环控制电机一次旋转固定的角度。伺服电机通过电平信号闭环反馈控制电机一次旋转固定的角度。”

✅ 一、逐句分析与修正 1. “直流电机是通过电平信号控制电机的连续运转” 🔍 问题: “电平信号”表述模糊,容易误解为简单的高低电平即可调速。直流电机虽然可以持续运转,但其转速和方向需通过PWM或电压调节控制,不…

作者头像 李华
网站建设 2026/6/10 22:41:55

硅胶按键的定制

一、硅胶按键阻值测试1、前言这只硅胶按键是从一个游戏摇柄上拆卸下来的。室温下,硅胶按键中的电阻大约 100Ω 左右。但会随着压力不同而改变。这里使用两个大头针接触硅胶按键,对应的电阻大约 120Ω。下面准备通过制冷半导体改变他的温度,定…

作者头像 李华
网站建设 2026/6/22 6:03:01

个人申报学分管理(11849)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华