作者 | 金旺
栏目 | 机器人新纪元
算力、算法、数据,是人工智能的三大核心要素,也是在具身智能加持下,机器人的三大核心要素,这其中,又以算力基础设施发展最为成熟,无论是工艺、制程,还是产业生态。
然而,即便如此,当下特别针对具身机器人定制的芯片却是寥寥无几,至于其中原因,则是现在具身机器人产业发展不够成熟,无法形成一致的标准、也无法形成规模量产。
手搓,是具身机器人现在的一个普遍现状。
也正是在这样一个行业背景下,《机器人新纪元》播客栏目第二期嘉宾特别邀请到了英特尔中国研究院院长宋继强,并特邀了至顶科技CEO兼总编辑高飞,和我们一起聊一聊:
具身(智能)机器人,究竟需要多少算力?
以下为本期节目内容QA精选(经整理):
01 早期人形机器人,一次演示,需要上百人团队支持
Q:您有一段从业经历是在一个叫机器人交互研究中心,这是一个什么样的机构?它主要做的是哪些方面的研究?
宋继强:这其实是伴随着我们在2013、2014年刚好全球有一个创客运动,中国在那个时候也如火如荼地开展了各种创客活动。
这其中,智能设备中有一个热点就是智能机器人,那时候机器人整体能力相较现在来讲都是小儿科,但是在那时候很关键的是,如何让机器人先有一些感知能力、语音交互能力,能理解人的语言,做一些简单的输出,能够理解你的语言,并且做一些相应的反应,或者做一些运动,这就很重要。
所以在2014年的时候,因为英特尔自己也推出了很多小型化的计算模块,集计算、通信、存储为一体的一些小型计算模块,这些模块也会被很多机器人厂商,包括无人机厂商拿来用作计算通信整体解决方案。
那个时候,我们就在2014、2015年,在研究院内部成立了一个机器人交互创新研究中心,主要就是在新的传感器和计算能力、通信技术的支持下,让类似于像人形、半人形,甚至小宠物形态的机器人能跟人有更好交互体验。
Q:我记得那个阶段刚好是智能语音兴起的一个时间点,当时最火的应该是NLP技术,像科大讯飞这批创业公司也是在那个时候兴起的,英特尔这个研究中心当时做的主要也是语音识别技术吗?
宋继强:语音识别是其中必须要做的,第二块是视觉识别,从那个时间上来看的话, NLP技术已经做了一段时间了,已经有一些比较可用的对话技术,包括交互式的,我们叫对话机器人。
在视觉这块,刚好2012-2014年是深度神经网络通过做ImageNet发挥了很大的作用,所以大家发现通过摄像头其实可以捕捉很多环境里的场景,并且可以和人去做一些交互,所以在2014年的时候,我们是将视觉和语音这两块整合在一起来看的。
Q:我知道高飞老师在人工智能这块也有很多研究,您对当时2014年前后做的视觉智能也好,语音智能也好,有怎样的感受?
高飞:因为我对机器人的兴趣也很大,当年看科幻小说的时候,那时候科幻小说的人工智能基本带身体的比较多,因为我是阿西莫夫小说的科幻迷,当时他写基地,基地里我记得那时候把机器人叫“机仆”,“机仆”实际上是人的一个仆人,从那时候开始,我觉得好像小时候看的科幻小说逐渐和现实世界比较接近了。
Q:最早的机器人,像本田的阿西莫,在运控上体现出了比较强的能力,但它还是基于经典的MPC、WBC这些运动控制理论的机器人,当时是一个怎样的技术范式?
宋继强:那个时候他们做这种人形机器人,做比如说运动控制、动态平衡,甚至做一些精细操作,更多是要展示它有一些控制、传感和反馈能力,所以你可以看到在日本是以像丰田、本田,在韩国是以现代这样一些大型车企在做这些事。
因为他们首先有雄厚的资本,第二他们也通过这样一些高精密、高实时性控制的需求,通过人形机器人来展示他们对于这些传感器、对于控制的这些零部件,包括一些算法,他们有很强的操控能力,但这些在产业路径上,当时其实并没有做很高的预期。
同理你要看回到欧洲,看德国当时在做什么?
德国其实是通过像德宇航这样的机构在推动机器人(包括人形机器人)在太空这样一些人去不了的地方怎么去做运动、做场景的感知和控制。
所以那个时候大家都有不同的目的,但是我们当时的观察是,他们其实并不是真有一条产业化的路径,都是非常昂贵的,然后去做一次演示,台上一个机器人,台下至少是一个百人团队在去支持。
高飞:有点炫技的味道。
宋继强:是的,主要就是炫技,就是展现出我有多强的这样一个整合能力,包括我的软件、硬件、传感器,还有其中这些伺服电机,整个一套我都能搞定。
高飞:有点像我们做那个吉尼斯世界纪录。
金旺:也有点像当时IBM做的那个人工智能的比赛,深蓝当时后面还需要有很多的团队在做支持,而且有很大的一个电力需求,但是大家都说其实是不实际的,如果产业化的话。
这之后其实是有了Deepmind这样的团队的出现,才把人工智能推向了产业化,推到一些更实际的应用场景中。
宋继强:所以在那个时候,可以说是控制优先,而不是智能优先。
真正到了比如说2012年、2013年之后,深度神经网络、深度学习推动了一波视觉能力的提升,然后又在语音能力、语言识别能力提升之后,机器人对于环境有了更多理解,包括开始有一些针对世界知识导入的办法,所以才开始有更多泛化能力,让它的智能能力能够提升一个台阶。
02 AI+多传感器,是人形机器人泛化能力的必备条件
Q:2013年,英特尔成立了感知计算产品线,也就是后来我们看到RealSense,在那个时间节点,是什么驱动我们做了这样的判断?
宋继强:其实当时确实是因为看到了新的AI技术的产生,它对于视觉输入有更好的理解和检测能力,那这是不是能够推动机器人有一波新的能力的提升,因为如果说看机器人这领域的话,它是一个发展时间很长,它远比计算机出现的早,也比人工智能出现的早。
所以每一波新的技术,大家都在想,我能在机器人上怎么用、怎么推动它产业化,想象空间很大。所以每当有一个新的技术出现时,大家都要去看如何在机器人上用,尤其是人形机器人到底怎么能用好这些新技术,所以就要前赴后继,一代代往里去加新技术、做新实验。
那么在2012年、2013年的时候,因为视觉神经网络开始可以做更多事,传感器要跟上,例如我们要让机器人能够看懂这个环境,然后能在这个环境里首先能够自由移动、做相应的交互。
那它看到的就不能只是一个平面的、二维的环境,它应该能看到三维的环境,所以就催生了感知计算这个部门,因为这个部门原来有比较好的基础,通过打红外结构光出去,能够快速检测到周围环境的深度特征,有点像简化版的激光雷达。
这样的话,它就能让机器人拥有三维深度视觉,不管你在里面运动也好,对于桌子上、环境里的物体操控也好,三维视觉比二维视觉强太多。
所以在这样的条件推动下,就成立了这个部门,这个部门既做底层硬件,就是传感器的设计,包括它后面所需要的硬件CPU、加速器的设计,并把它们整合成了一个硬件模块,同时也要考虑硬件如何在软件系统中去使用,去做上面的软件栈。
所以当时是做了一套软件,能够装在Windows、 Linux系统中,首先有这个驱动装进去,然后上面是对接着一个视觉处理的软件栈,所以等于说提供了一套完整的解决方案,从硬件、模块,到软件都做了,然后就将这套产品往社区里推,也在往客户那儿推。
Q:基于RealSense也好,基于CV也好,其实在工业领域(工业机器人和工业自动化领域)有很多应用,我们现在回过头来看,英特尔在工业机器人领域做得确实很不错,这其中有哪些令您印象深刻的地方。
宋继强:在工业领域,通常是在做相对精细的操作,这种精细的操作精度通常需要是毫米级,甚至是亚毫米级,那对于深度的要求就不是纯视觉可以还原的,通常需要专门加入深度摄像头,这样的领域,我们可以提供比较完整的解决方案(前端深度摄像头+后端实时计算)。
通常英特尔的CPU就能支持这种实时深度计算,如果再做操控的话,控制这些电机去做这种运动,也需要实时控制,加上逆运动学反算,就需要支持高精度浮点。
这样的话就有了这种传感器的支持,再有了CPU的支持,就可以形成一个相对完整的工业级解决方案,可以应用在很多工业领域,例如分拣、抓取、零件装配,这些领域都用得上。
Q:但是那个时候应该是用机械臂来完成,现在我们是想用人形把这些工作再重做一遍,这两个本体之间会有怎样的gap吗?
宋继强:那一定会有差别,因为像用机械臂的话,通常前端执行器是根据这个场景去设计的,它不用一定是灵巧手,对于这样一些场景,它的执行器本身就可以专门定制,例如触觉,或者在它上面加装一些小的摄像头、力反馈传感器,就可以做到比较好的抓取,相应的抓握力度的操控也比较容易做。
但是我们一讲到人形,其实大家就知道我们是想利用人形,例如胳膊这种多关节的操控,加上手,而且这个手是可以去适配不同种类操作的,例如我可能要抓个杯子,可能要去开门,也可能要去抓一个苹果。
这种操控要用简单的视觉,或者深度摄像头去处理的话,会有一些挑战。
因为在这个场景下,如果说是用深度摄像头,假如说它是基于红外线这种结构光,在某些材质的表面、在某些颜色,它会被吸收掉,例如我们的头发就会吸收掉红外线,那你操控的时候如果看不到人的头发,你把手伸到了头发区域里,是不太合适的。
所以在这种情况下,你就要考虑,如果是开放场景,传感器有哪些局限性是做不了的,你就要有其它方案去弥补它。
在工业场景里,因为场景相对来确定,有些东西是不会出现的,那会更可靠一些。
所以我们一旦到了这种相对多样性、开放的这种场景里的话,对于操作,尤其是灵巧手本身它的设计也是多种多样的,那之后针对VLA的控制模型本身也要做很好的调优,才能知道我真正要去操作这个东西要达到什么样的精度、什么样的力反馈,才能做得比较好,所以这个更多是一个系统性调优工程,不是专靠一个传感器就可以搞定的了。
我们认为,现在大家都想在人形机器人领域做到更好的操控、更好的对环境的泛化能力,这时候智能能力加上多种传感器组合一定是必须的。
在处理器这块,得要异构计算,因为既然你是多种技术的组合的话,就意味着它的计算要求是多样性的,但要整合起来用。
Q:在工业机器人那个阶段,英特尔有针对工业机器人设计专用芯片吗?
宋继强:我们倒没有专门为工业机器人做专门的芯片,基本上还是沿着CPU的主流设计,做相应的一些改造和定制。
主要会在芯片的温度范围,比如宽温设计,它要达到工业级的一些耐用性,同时它对于这种确定性、实时性要求,在操作系统和硬件这个层面要能够互相保证起来。
还有高安全性要求,这些要做到芯片设计或者它里面的一些固件,所以通常来讲会专门去给它做一些改造提升。
在架构上,通常还是跟着我们CPU的异构整合方式去做。
03 编程阶段的机器人“学习”要靠人,有了深度学习就可以靠智能
Q:随着人工智能技术出现的深度学习、模仿学习,为机器人研究范式带来了哪些改变?
宋继强:最开始像MPC之类的预先设计好这种操控模型,对于机器人的操控精度等要求都是预设好的,这种情况下,基本上我们认为学习是人的事儿,设计者学习好了之后,你把它转换成对机器人控制的模型设计和编程就行了。
到了有深度学习之后,大家就想我怎么利用深度学习的能力,让机器人去学会一些原来我不太方便用编程完成的这种动作。
在这个过程中,其实就是模仿学习和强化学习在发挥作用,因为在这个时候的话,我们只需要让机器人去跟着一个做好的动作序列,它通过视频去观察、去看,或者在模拟器里预先有人去做了一些编好的动作,它在模拟器里去做、去学习。
这两种都是它模仿学习的起始,那么,通过模仿学习尽量让机器人在做同样类型事情的时候,通过深度学习网络或者其它基于数据训练出的网络,让它更贴近人给它的例子,你就要尽量模仿这个例子去生成后边同样场景、同样目的下的一些动作序列。
那么强化学习它就要更多去看,这是一个多步骤的过程,那几个步骤之间如何有很好的优化顺序做过去,这是强化学习可以给予的,它通过设置最终目标,不断看中间几个步骤,给你奖励和惩罚,最后让这个操作序列达到一个最优路径,所以这两个对于现在机器人领域是非常重要的。
因为这样它可以通过数据训练,第一能够让机器人快速找到一个比较容易收敛的路径过去,要不然它整个操作空间很大,你要全靠各种数据去迭代,那要花很多时间。
但有了模仿学习,有了强化学习,它就可以更快收敛到一个能够达到可用的路径的办法,但这未必是最优路径,这取决于它给予的这种训练的资源,就是计算能力和给的时间,它会收敛在一个good enough,我们叫足够好就行了的一个状态,未必是最优的。
金旺:所以它其实是从编程阶段,到数据驱动的过程。
宋继强:编程我只能处理一定的场景,因为能编程的人本来就少,要编好、要去调,这是一个完全闭环的过程,所以它能处理的场景也少,场景一旦有一些变化,那就要重来。
但现在我们又希望机器人从应用量,比如说万级到十万级到百万级,用到更多半开放或者全开放场景里边去,编程显然是不可能的,你只能靠有一套机制、一套方法,让它能够自己把后边要做的事给推理出来,所以这就是一个靠数据去训练的方式了,要靠工具。
高飞:编程有点像纯粹的“人工的智能”,有多少人工就有多少智能。
Q:我们再看具身机器人这个领域的话,您刚才提到的端到端、VLA,现在都在讲能做哪些高阶任务,然后能执行多长程的一个任务,现在会有一个比较好的量化吗,能执行多少步的长程任务算是高级智能。
宋继强:没有太好的量化评测,最近我们也看到一些科研机构都在针对具身智能、物理AI领域做一些评测的Benchmark,我们会看到越来越多人开始关注具身智能,不光看它的表演性,要看它真实能做的事情到底有做多复杂、质量有多好、一致性有多强,我觉得这是很好的事情。
你要把它的功能拆解出来的话,它首先要有比较好的场景理解和规划,这个我觉得是靠现在很多强大的大模型会做得越来越好,那么它识别出来并做了一些规划的话,之后我们要看针对用户的输入和场景里相应的一些条件,要生成一个它要去做的指令的话。
那现在就有不同的这种实施方法,现在VLA已经比较流行、大家用得比较多,通过视觉场景观察、检测,和用户通过文字、语言方式给了指令要求,最后要产生相应的action,就是动作序列,那这是VLA它定义的价值。
如果说VLA已经能够很好地解决了这个问题,那我们就认为它其实达标了,但目前看还不行,因为VLA更多是一个视觉响应为主的模型,它对于动作序列的产生更多的是在模仿在它训练数据里产生的和语言进来的要求。
其实它就像是一个小朋友,假如这个小朋友还不大,他的眼睛和语言能力都ok了,但他对于真实世界里很多物理规律,很多可能出危险的东西他不懂,他会去看大人做什么事他也去做。
他做的过程中可能不知道一个铁球比一个乒乓球重多少,把一个东西扔出去,什么东西会被砸坏,什么东西是弹回来,这个他也不知道,那这种情况下,我们就认为只靠VLA本身会有问题,所以就要加入更多对于世界知识的理解、物理定律的建模,包括对于未来可能发生事情的预测。
这都是随着大脑的发育,对世界理解越来越多,就会做得更好,现在大家在把VLA+世界模型整合起来,这样产生出来的规划和动作序列才能更加可靠。
Q:英特尔在具身智能领域有怎样的技术布局?
宋继强:机器人领域首先它需要异构计算,那么刚好我们就用我们现在最新的CPU,例如我们的酷睿Ultra 3,它就是一个典型的XPU架构,里边包含了CPU、GPU、NPU,它里边的计算内核可以根据需要去配置。
英特尔酷睿Ultra 3有16个CPU的核、12个GPU核,然后还有NPU,它们组合起来是一个180TOPS的算力,180TOPS算力可以有不同的能效比。
如果说我要能效比最高,我可以选择NPU,如果实时性要求比较高、又要求浮点运算能力的话,就用CPU的核来做,对实时性要求很高的我会单独给它一个CPU核,不会让任何人去打断它,这样就保证了它的实时性。
那如果对于这种运行视觉大模型,那就让GPU部分去做,同时还要考虑到我这个系统还在实时有很多传感器数据进来,要做这种数据的一些同步、处理的话,刚好可以用我们现在的XPU处理器架构去支持具身智能机器人上多样性的负载。
Q:除了异构架构的话,酷睿Ultra 3针对具身机器人还有做哪些方面的优化吗?
宋继强:硬件层面上,首先满足了工业级别要求的宽温,还有对于工业级别耐用性的一些要求,另外在它的板级设计上,我们也专门把一些工业场景需要的接口都做了进去。
软件层面上,相对来讲支持的会更多,会把EtherCAT支持进去,然后把对于现在一些主流的AI的模型,不管是CNN、DNN,还是VLA的模型都做了支持,并配合我们客户要求做了调优,这是和我们在PC领域的应用不一样的地方。
Q:现在有在具身领域设计专用处理器吗?
宋继强:目前在英特尔的产品序列里,还没有专门针对具身智能领域做的处理器,这是因为目前来讲,具身智能领域还属于发展的早期阶段。
第一是它上面的工作负载,包括AI算法还远远没有达到统一和成熟。
我们知道,硬件的设计周期比较长,硬件定义要能满足软件的需求,如果说是这个软件算法一直在变,那对硬件来讲最好的方法就是保持一定的通用性。
如果说软件或者AI算法已经有通用标准在实施,类似于视频编解码,一旦形成这样的标准,大家都要互相之间遵守,要不然你编出来的视频他解不了,这就是很大的问题。
一旦这种互操作的标准出现之后,那对于硬件厂商来讲,我们就可以根据这个标准的要求去设计专用的芯片,不管里边的计算内核,对存储的要求,对于互联的这种要求都可以相应的做设计,在那个时候就比较容易去搭配通用部分和定制部分。
那我们的感觉是,如果说是这样的标准出现之后,通常在10个月左右,一个芯片的定义一般就可以产生出来,那么再加上8-9个月去流片、做初步的测试,也许一年半就有这样的一款芯片可以给到业界使用。
Q:CES 2026上有很多机器人,高飞老师最近也有去拉斯维加斯的CES,现场有什么是让您感触尤其深刻的?
高飞:我觉得去了CES之后有一种错觉,就感觉好像人仍在中国。
因为很多在CES上火爆的具身本体,其实在国内基本上也是一样,举个例子,你在国内看宇树打拳击,在CES看到的还是宇树在打拳击,而且围观的人很多。
但是有一个场面给我印象很深刻,是在酒店的时候,当时我不知道是哪家企业,他带着他的本体去展台,因为都是从业人士,所以这个机器人在人群中走的时候就没有太多人去围观,因为大家觉得好像习以为常,如果在现在街道上可能也这样,所以就形成一种场景——一些人往场馆走,然后一个机器人走在人群中,然后我就拍了张照片。
那张照片给我印象很深刻,就感觉好像机器人和人生活在一起了一样。
我当时的感觉就是,可能过个5~10年,这样一个场景可能变成了“通用场景”——我们走在路上,可能会有不同的机器人为我们做不同的事,我觉得这是我比较期待的一个场景。
04 机器人进场景,需要多少算力?
Q:英特尔在工业机器人领域哪些经验可以复制到具身机器人领域?
宋继强:首先是在芯片硬件平台上保障它的实时性,以及在工业级别的可靠性,我觉得这是英特尔一直以来可以比较好支持的。
第二是说当这个行业发展到我要把机器人真用到业务系统里后,在业务系统里如何比较好地把上面的软件调优和底层机器人硬件平台达到一个很好的软硬件优化,这也是英特尔的优势。
前面我们讲的很多场景,如果说机器人只是做酷炫的动作,那它就是个表演型的机器人,但如果说机器人除了这些之外还要完成一些任务,这些任务它一定是和整个系统里其它部分要通讯、交流的。
又有传统的一些业务软件在运行,又有机器人自己的一些控制类、动作类的(任务)在运行,那在我们这个系统看来,里边就存在着竞争了,你如何保证我在运行其他任务时,还能保证你做控制的这些能有很好的完整性,并保障它的实时性。
所以这其实是一个完整的系统调优,英特尔在整个系统层级可以帮它从硬件到软件层级都做得非常好。
Q:具身机器人对算力需求很高,三代酷睿已经做到了180TOPS,然后还有其他厂商有说需要更多算力,要做到数百TOPS、甚至2000TOPS。您觉得具身机器人需要多大的算力?如果下到一个具体的场景中,例如工业场景,做某一类任务大概需要多少算力?
宋继强:在不同工业领域其实都不一样,如果说是常规做一些机器人搬东西,从A处移到B处,我们叫pick and place的任务,它需要的算力基本上就在于它做视觉处理和VLA模型的算力,这取决于不同厂商用的VLA模型和它优化的程度。
VLA模型有开源的、有闭源的,如果拿开源的来讲的话,通常来说,我们认为在200TOPS以内,模型优化好了,是可以在酷睿Ultra 3上运行的,我们已经有展示这样的能力。
但如果客户定义了一个自己的VLA的模型,这个模型对于计算量的需求我们就不好预估了,也许很高,也许同样优化得很好。
但我们不怕,为什么呢,因为我们有两个办法:
第一,我可以在酷睿Ultra外边再挂一个外接的AI加速卡;
第二,我们可以通过超低时延无线通讯,把它和边缘计算盒子连起来,这也是现在非常有吸引力的一个方案,尤其是在未来,多个机器人在一个场景里去工作时,这种方案几乎是必须的。
Q:您如何看待OpenClaw这个技术?它对英特尔的AI PC等产品会有什么影响?
宋继强:这是一个非常正面的影响。
现在来看的话,原来在PC终端,我们把一些端侧大模型放上去,但仍然需要不同种类app,或者说是应用接口,让用户去对它进行操作和调用,所以上面还是有蛮多不同的硬件入口的,一般用户很难把它用好。
那现在有一个新的办法,我只让用户通过自然语言方式去和它交流,把意图告诉它,它再来拆解你这样的要求,我要分成哪些步骤,我要去调用哪些功能,这些功能我这个PC上有没有,有我可以直接用,没有就要到网上去找、去学新的skill。
好处在于,它既然是在你的PC端,所以它也可以有一个更好的权限和隐私管控,可以用到个人数据去完成它的任务。
我觉得这其实也给大家开拓了一种全新的使用家用电脑的方式,也是一次人机交互革命,它一定会孕育新的硬件,我认为机器人一定也会受益。
高飞:机器人没准也要有一个龙虾。
宋继强:机器人现在已经开始有了,已经有人把这个龙虾放在机器人上了。
金旺:多智能体的决策也可以用龙虾来实现。
宋继强:这个决策就看你让不让它来做了,从我的角度来讲,我会先把这个决策权放在我这儿。