手脑并用,AI 大模型“补全”机器人
抓鸡蛋、做深蹲 … … 更轻、更稳、更快。
这是特斯拉刚刚发布的人形机器人 Optimus 擎天柱二代,不论从运动能力还是智能能力,都比去年的一代有明显提升,也让人们对 AI 的终极形态,再度心潮澎湃。
具身智能,一种基于物理身体进行感知和行动的智能系统,人形机器人就正是根据这一概念打造而来。
12 月 13 日,虎嗅智库举办了 502 线上同行主题研讨活动,来自达闼机器人高级副总裁 Karl 赵博士、上海开普勒探索机器人联合创始人 / 副总裁胡德波、乐聚机器人副总裁吴雨璁、深圳开鸿数字产业发展有限公司 OS 产品部部长柴莹、祥峰投资副总监陈雅琢,就具身智能和人形机器人进行了前沿观点分享。
以下为嘉宾的部分观点摘要:
" 肢解 " 具身智能机器人:大脑、小脑是核心
● 具身智能(Embodied Intelligence)不是一个新的知识,更多是把目前现有的人工智能领域的新发展统一放到一起。它从上到下的功能可划分为:大脑、小脑、主控系统、主干结构以及零部件。
大脑,负责规划决策、分解任务,主要就是指现在新兴的 AI 大模型;小脑,负责全身的运动分层控制;主控系统,包括实施系统调度、通信协议站、CPU、GPU、FPG 硬件加速进程和算力的优化;主干结构及零部件有双臂、足式、轮式等,类似于人的一系列关节和肌肉。
● 在产业界,小脑的研究比大脑的研究时间更长,积淀更深。大脑对语义信息理解过后需要转化为动作,小脑就是运动控制的核心,它主要是控制算法的进化。机器人要实现越高难度的任务,就需要小脑越能够做到精细的底层控制,优化整个运动效果,这涉及到步态平衡、动力学模型以及控制框架等等。目前这一块的最新研究是通过强化学习加模拟的解决方案,让具身智能从环境中获取它更优的状态,然后由智能体做出决策,且对环境做出一个合理的行为反应,最终逐步实现具身智能机器人的远景。
● 随着 AI 大模型的进化和爆火,具身智能机器人能否走进现实?国内外的学者专家对此观点不一。有的认为可以将这种在很大数据语料库上训练大模型的方法通用到机器人身上。也有人认为,在目前这个时间节点,无法真正解决机器人学习的商业化大规模落地。
第一个难点是数据获得的难度。在现实生活中收集其他的数据相对简单,但大规模的机器人数据目前并没有明确的获得途径,且机器人形态大小不一,实体的多样性意味着需要针对机器人类型来分门别类的收集数据,这会使本来就有难度的数据收集变得更加困难。
第二是性能预知的问题。比如 GPT 的回答会和实际出现一定偏差,但真正运用到现实世界的工业、商业和家庭场景中时,容错率是很低的,目前的机器人学习算法达不到很高的可靠性和准确度,而且硬件系统的单次失效成本也远远高于软件系统,所以成本也非常高。
第三是机器人任务的 long horizon 长视野问题。不同于使用大语言模型获得单一问题的解答,机器人需要非常多的一系列的正确指令和动作才能完成我们提出的一个简单任务。所以,随着时间推移和任务难度的叠加,误差也会逐渐累积变大,所以大家会觉得这个时间点用大模型做端到端的机器人具身智能并不成熟。
● 对于这方面的创业公司来说,产业在技术上算是有所准备了,但对待落地产品更应该要有终端交付的思维,而不是单纯的通过高成本进行单次训练来获得一个相对好看的研究成果。
国外 " 大脑 " 开发超前,国内 " 降本 " 优势明显
● 对比硬件能力,国内公司和国外基本可以齐平,甚至在核心零部件方面,国内还略有优势。但在 " 大脑 " 方面,AI 大模型特别是多模态的探索上,国外企业优势更明显,也导致了他们的机器人本体性能更强大。
● 从最早的美国波士顿动力,日本本田阿西莫,人形机器人的发展时间并不短,但这些早期产品迟迟没能够商业化的很大原因还是在于成本,直到现在人形机器人都没能大规模铺开。但未来国内企业最大的优势也会从这里体现,那就是软硬件的国产自研迭代能力和供应链规模化后的成本降低,现在工业协作机器人的发展趋势已经证明了这点。
● 只有人形机器人在一个合适的售价,更具体说,至少要降到十几万元,顶多二十万元出头,才能两三年内在一些垂直场景中真正投入示范应用,而不是像现在仅仅作为科研载体。然后等售价再低到十万元左右甚至更低时,可能才会走进千家万户。当然,这个前提是大脑技术要足够成熟。
● 机器人成本高昂,除了关键技术还在研发以外,还有一个比较大的因素,就是传感器的结构布局过于分散,装的东西越多,装配复杂度就越高,这会给成本带来直接压力。因此,将所有设备都用同一个软件操作系统进行互联互通,对于未来机器人的能力开放性和成本降低都有好处。
和 " 人 " 竞争性价比,主流应用从 B 端开始
● 目前对具身机器人的研究更多是在科研中,预计未来三年到五年,会逐步先出现在 B 端场景,比如汽车、物流、仓储、中央厨房、搬运制造业,包括还有一些高校教育,以及便利店的上下货、清洁、最后一公里物流等等。未来更长期看,一定是会做到 C 端场景中。因为 C 端任务更复杂和具体,所以对技术要求更高,对单台机器的造价成本也会压低。再往后,终局会落到家庭安防、老人的看护陪伴,端茶送水等。这些难度就更高,需要极为泛化的物体交互能力。
● 除了实体机器人之外,云网端架构还可以支撑虚拟机器人,或者又叫数字人,它虽然不是百分之百的具身智能,但也具备了具身智能的特点。虽然不能直接走动,但它也可以通过摄像头看到听到,具备思维能力后可以和人进行互动,这在文旅行业,包括图书馆之类已经在用起来了。
● 在 B 端应用上,一定会面临算账的逻辑。根据我们测算,一个人形机器人的价格,只有在跟一个员工大概一年到一年半左右的工资,也就是十几万元到二十万元这个范围内,才能和 " 人 " 产生一些竞争力。而在欧美,2-3 万美金的价格区间是批量落地应用的门槛,现在大部份人形机器人厂家都远高于这个价格,只有少数中国厂家已经率先冲击这个价位。
● 像碰到的有真实需求的客户会提很多要求,这很有利于我们快速的在实际场景中打磨应用,功能性上有良好反馈,也让我们对一线理解更深,这里面会有一个交叉反驳螺旋上升的过程。
● 以前传统机器人是要工程师去做配置、做编程的,所以人形机器人的大批量落地,除了攻破技术门槛,还需要非常高水准的部署便捷性,包括作业系统的集成、任务的管理、数据的安全等等一系列问题,都要一步步来解决。
... ...
本次活动中,线上参会观众汇集了来自北京大学、复旦大学、北京邮电大学、南开大学、中科院自动化研究所、上海人工智能实验室等高校研究员,也有来自美团、腾讯、字节跳动、京东、商汤科技、智谱 AI、地平线等知名公司的人工智能相关负责人,还有一众知名机构 VC 投资人,大家在互动区进行了热烈的提问,对于 " 越来越多公司在研发基于强化学习的小模型比如抓取、导航等,如何看待这些新的小脑技术方案?"" 机器人的灵巧手多久能用来干重活?" 等问题,嘉宾给出了精彩回复,也圆满结束了本次 502 线上同行研讨活动。