ChatGPT 里走不出具身智能,为什么?

2024-12-19 22:36| 发布者: Itheima丶| 查看: 285| 评论: 2

摘要: 从语言智能,到空间智能。整理|曹思颀编辑|靖宇2024年,具身智能无疑是AI范畴里最火热的新赛道之一。相较于现在大语言模子在数字天下里带来的技能厘革,具身智能刻画了通往将来天下的另一条路径:大量具有聪明的呆板 ...


从语言智能,到空间智能。

整理 | 曹思颀
编辑| 靖宇

2024 年,具身智能无疑是 AI 范畴里最火热的新赛道之一。

相较于现在大语言模子在数字天下里带来的技能厘革,具身智能刻画了通往将来天下的另一条路径:大量具有聪明的呆板人出如今真实的物理空间中,通过到场到人类生产、生存的各个环节,改变人类的生存方式。

但和大语言模子可以使用海量互联网文本、图像资源举行快速学习差别,在具身智能范畴里,呆板人缺少低本钱、高服从、多样性、可泛化的学习数据。

假如只基于 Transformer 架构的大语言模子(如 ChatGPT),人类无法实现具身智能。海量物理精确的练习数据怎样快速获取,是迈向具身智能前的天下级困难。

13 年前,黄晓煌返国创业。返国前,他在美国伊利诺伊大学学习 GPU 盘算,也在英伟达做过云盘算。他一开始的创业方式,是盼望用 GPU、云盘算来做物理仿真,但在其时,少少有人可以明白 GPU 通用盘算的代价。于是,黄晓煌用 GPU 举行光学仿真,并应用对家装场景里,把过往必要几非常钟的渲染提速到了 10 余秒,自此开始了群核科技的创业之路。

多年后,依附着在家装渲染、工业 4.0 生产对接中积聚的海量数据,在具身智能的技能巨浪袭来时,群核科技终于脱下「家装公司」的外壳,浮出水面。他们盼望可以在数字天下和物理天下中心,搭起一道桥梁,通过海量可交互的、物理精确的三维数据,推动具身智能的发展。

以下是群核科技团结首创人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中,黄晓煌分享了群核科技的创业故事,以及他们对具身智能期间的思索。由极客公园整理。

01

ChatGPT 办理不了的「叠被子逆境」

各人好,我是极客公园的老朋侪,来自群核科技的黄晓煌。本日我先容的主题是:怎样让 AI 从数字天下走向物理天下。

大模子到来之后,全部人都想知道它能为昨们做什么。昨们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字,但她已经能很天然地对着各种镜子和屏幕喊「小度小度」大概「小爱同砚」了。

但他们现在还只能跟假造人物举行沟通,昨们更盼望孩子们跟物理天下有更多互动,有真实的伴随。惋惜即便 AI 如今已经可以吟诗作画,但就算叠被子这么简朴的家务,呆板人都实现不了。

当昨们谈到具身智能大概呆板人的时间,「叠被子逆境」是一个非常典范的场景。

现在的 ChatGPT 大语言模子,可以很轻易地让呆板人明白人类的指令,「给我叠一个被子」,它也可以通过视觉判定哪床被子是叠好的、哪床被子没叠好,但它很难实行。大概当它学会叠一床被子后,换个外形大概就又不会了。

呆板人的大脑在数字天下里,但身材却在物理天下中。办理这类题目,最关键的是在物理天下和数字天下内里创建一个桥梁。而 ChatGPT 一类的大语言模子是无法实现的,昨们必要一个全新的大模子。

让呆板人精确明白物理天下,关键是要有海量可交互的三维数据。许多大语言模子都是根据互联网上的语料信息、图片或视频练习出来的,但这些内容只是一堆静态的影象,练习出来的东西跟物理天下是相违反的。

这里有一个简朴的例子,左边是由 Stable Diffusion 大模子天生的寝室场景,右边是由昨们的矩阵 CAD 引擎天生的。乍一看都挺美丽的,但左边这张存在多处物理不精确的地方:好比有的床头柜悬空、有的柜门无法打开。昨们必要在大模子脑海里出现右边这种内容,来引导真实的生产制造。


Diffusion 模子天生的图片和视频,现在还存在和很多物理 bug | 图片泉源:群核科技

02

群核的创业之路:家装公司收到硅谷来信

说说我的个人履历吧。我一开始在美国伊利诺伊大学香槟分校学习 GPU 高性能盘算;厥后去英伟达做了 CUDA;返国后建立群核科技,做了 3D 云计划平台;如今又在关注具身智能。

常常有朋侪问我,为什么你选择如许的创业门路?我想说,在中国创业没办法太阳春白雪,要实事求是跟着期间走。

刚开始创业的时间,我想用 GPU、云盘算来做物理仿真。但是返国一看,发现其时投资圈热门的都是移动互联网、O2O,我所想做的项目根本融不到钱。跟投资人讲 GPU 通用盘算,在谁人年代险些就是对牛奏琴,更不要提物理仿真了。

厥后,昨们想到了用 GPU 来做光学仿真,把原来必要几非常钟、一个小时的结果图渲染提速到了 10 秒钟,为家装计划师提速。这个「家装 OTO」的概念,很快成为了资源最推许的项目,帮昨们融到了许多资金,让酷家乐乐成上线并成为了计划师首选的计划工具。

下一步,昨们捉住了工业 4.0 改革里,传统工厂打造柔性生产线的需求,用昨们的数据资助工厂举行升级。昨们用物理仿真、数字孪生,把每一件商品拆解成一个个零件,通过流水线呆板人以及传送带实现柔性生产。

但这依然不敷,由于这些工厂里全部的机器臂都是没有聪明的。你告诉它往左就往左、往右就往右,机器臂是没有智能的。一旦举行微小的改动,全部统统都要重来。以是,如今的无人工厂现实上还不是真正的无人工厂。

那段时间我非常苦恼,但昨们已经见地到了物理精确数据的代价。直到有一天,我看到马斯克提出用人形呆板人在工厂生产汽车,就以为工业 4.0 的下一步是把流水线呆板人酿成人形呆板人。我以为这是将来,而群核科技就是这些全部呆板人练习的「道场」。


群核科技的空间智能探索之路 | 图片泉源:极客公园

这些年昨们做 3D 云计划平台,只管路径一些曲折,但也积聚了海量的三维数据:3.2 亿个 3D 模子、不可胜数的物理精确的三维场景、月活靠近 8000 万,服务了 200 多个国家和地域。昨们在这个过程中始终信赖,物理精确的空间数据是可以用来练习大模子的,昨们的科研职员也不停在练习,在等候一个时机。

2018 年,昨们的科研职员跟帝国理工、南加州大学共同发布了一个室内智能数据集方案。这是其时环球最大的室内场景认知深度学习数据集,一下子在学术界很热。

有一天,昨们收到了一封硅谷最大公司的邮件,盼望跟昨们举行空间智能的互助。固然昨们乃至猜疑是骗子。几万亿美元的大公司,怎么会找一家创业公司互助空间智能。但这简直是真的。在互助的过程中,昨们发现了这些大公司在办理了算力、算法题目之后,他们面对的题目是,缺少海量的、可交互的、物理精确的三维数据。

昨们跟现在环球这个范畴最靠前的公司根本都告竣了互助。这两年,中国的空间智能、具身智能也发作式地增长,昨们也跟国内头部公司告竣了互助。这个时间,我以为技能奇点到来了,昨们的时机也来了。

03

具身智能的天下级困难:数据

昨们发现,如今不管是空间智能照旧具身智能,有四个最关键的题目必要办理:算法、算力、数据、呆板人硬件。

算法层面,现在是百花争鸣的状态,有非常多算法。

算力层面,国外以英伟达为代表,国内也有地平线等公司在快速地办理这个题目。我以为算力已颠末了技能的奇点,可以支持人造的聪明了。

呆板人硬件层面,中国更是独霸环球。

而现在天下级困难的是:怎样给呆板人提供用来练习的可交互的数据?这就是昨们要去办理的。


群核科技团结首创人兼董事长黄晓煌 | 图片泉源:极客公园

现在用来练习具身智能的方式,重要有两种

第一种,以斯坦福大学的 Moblile Aloha 为代表,它通过用装备来收罗人在物理空间中的动作,来练习呆板人。但是它的收罗本钱非常高,而且空间非常受限。

第二种,也是现在学术界比力火热的,通过仿真数据来做呆板人的练习。现在新一代的算法论文都是基于这个逻辑,李飞飞的文章也都是这个逻辑。由于它才真正可以实如今海量的空间内里做物理练习,让呆板人可以或许拥有充足多的顺应性。

相比真实的练习情况,仿真练习重要有以下四个巨大的上风

第一,低本钱。如果用一个真实的空间练习一个呆板人,那么每练习一个场景都要盖一个真实的房间,那这个本钱着实太高了。

第二,高服从。在物理天下里,时空是确定的。假如练习一个呆板人必要 1 天,那么练习 1 万次就得 1 万天,时间没有办法压缩。但在数字天下里,时间是可以被压缩的,物理天下里要用 1 万天跑完的数据,数字天下里大概 1 天就可以跑完。

第三,多样性。在实际天下内里,要找到各种各样差别场景黑白常困难的。假如昨们想练习一个呆板人去火星上帮人类干活,但没有办法先把一堆装备送到火星上去提前练习。合成数据办理了多样性题目。

第四,可泛化性。李飞飞发表的文章里提到了「数字表亲」的概念,可以生产雷同的场景举行练习,从而实现闻一知十。否则昨们练习出来的呆板人只能在千篇一律的房间里干活,脱离了谁人房间,照旧啥都不会。


相比真实场景,仿真数据用于具身智能练习拥有诸多上风 | 图片泉源:极客公园

那么,群核科技的焦点上风是什么?昨们为什么能一起到场这个故意思的征程呢?

昨们通过多年的 3D 云计划平台,积聚了海量数据,用这些数据练习了本身 CAD 的大模子。这些大模子可以阅读人类的 CAD 文件、图片、手绘等,然后把这些内容再转换成物理精确的空间场景。昨们也自建了 1 万多台高性能盘算服务器,专门用来练习、推理、渲染。昨们盼望用物理精确的合成数据,来资助全部具身智能的呆板实现练习。

本年,昨们推出了新版本的 SpatialVerse 来赋能 AI 空间智能。由于传统的三维数据太「干净」了,没有办法直接用来练习呆板人。昨们必要 AI 对这些原始的数据举行物理加强:告诉呆板人那里是抽屉可以打开,可以打开多少水平;物体的重力是多少;那里是门可以打开,是往里开照旧往外开等等。

其次,在呆板人练习的时间必要有各种语义信息在内里,已往都是人工标注,如今要用 AI 给它主动标注好。

别的,情况增强也很紧张。昨们平凡人生存的情况不是像 3D 天下内里那么纯净的,包罗你的房间内里有纸巾、有动物的毛发等,但是在数字天下里没有,你要把它以某种方式加归去,让一个空间不是一个纯净的空间,它必要更靠近于真实的空间。

末了是隐私题目。前阵子环球最闻名的公司之一被曝出在收罗物理数据的时间,不警惕拍到了房屋主人上茅厕的视频。合成数据就没有这个题目,它不会涉及到人类隐私的题目。

昨们本年和上海人工智能实行室一起发布了具身智能练习的新范式,多模态的 3D 数据办理方案,就是大规模的动态场景天生,渲染+物理真实感以及高分辨率的场景分割。这内里的空间场景都是基于昨们 SpatialVerse 的办理方案。


具身智能将来将进入更多场景中 | 图片泉源:极客公园

我以上展示的这些肯定不是空间智能、具身智能的全部,它只是开始。具身智能还会进入到昨们更多的场景,除了在昨们工厂内里工作,还会进入到昨们的贸易空间里、办公室里,家庭里。将来,昨们的生存场景内里会布满了空间智能、具身智能的呆板人。

固然,全部的利用场景都必要丰富的物理精确的三维数据给它们练习,由于各人不盼望一个没有练习过的呆板人在你家内里。一个 300 公斤重的呆板人,万一发起疯来,谁都受不了,以是昨们得确保它在充足多的空间里练习过,才气够进入到昨们工作生存的情况里,这黑白常紧张的。

我信赖将来肯定是具身智能、空间智能的期间,我信赖从生产制造再到贸易空间再到昨们家庭场景,它会充斥到昨们每一个角落,就像叠被子那一刻被呆板人完善地办理了之后,呆板人就会办理昨们一样平常生存中各种各样所必要的题目,我也盼望群核科技可以或许成为中心紧张的推力之一。

接待各位小同伴跟群核一起走向技能的彼岸。

*头图泉源:极客公园

本文为极客公园原创文章,转载请接洽极客君微信 geekparkGO

想看国际最先辈程度的 AI 公司怎样对待 AI 吗?想看最火的呆板人公司怎么预测将来吗?想看最有调性的科技公司怎么在这个期间做产物吗?好险!差点就错过他们的分享了!

12 月 19 日(周四) 13:30,极客公园创新大会 2025 直播举行时!锁定视频号直播间,2025 年科技趋势全部都有!


路过

雷人

握手

鲜花

鸡蛋
返回顶部