Posted in

新一代人形机器人 Figure 02 登场,号称“地表最强 AI 硬件”,能对话会学习,无间断打工 20 小时_AI阅读总结 — 包阅AI

包阅导读总结

1. 人形机器人、Figure 02、AI 硬件、技术突破、未来方向

2. Figure 02 人形机器人登场,号称“地表最强 AI 硬件”,在外观、关键技术等方面有重大突破,能对话会学习,工作时长可达 20 小时,但也面临质疑,人形机器人的未来发展仍有诸多未知。

3.

– 新一代人形机器人 Figure 02 登场

– 外观焕然一新,从闪银色铬金属皮肤换成炫酷哑光黑,曲线更流畅

– 展示地点在宝马生产线

– 技术突破

– 硬件和软件重新设计,在多关键技术上有重大突破

– 包括语音对话、摄像头、手部、机载视觉语言模型、机载电池、CPU/GPU 等方面

– 面临的情况

– 被质疑宣传与实际不符

– 有人认为人形机器人在工业制造不是最优解

– 但 Figure AI 并非唯一在通用人形机器人赛道竞争的公司,多家公司在积极发展相关项目

– 未来发展仍有诸多未知

思维导图:

文章地址:https://mp.weixin.qq.com/s/wvwr0HxSZviHAK7nSjIPsQ

文章来源:mp.weixin.qq.com

作者:Jessica

发布时间:2024/8/7 1:31

语言:中文

总字数:3376字

预计阅读时间:14分钟

评分:91分

标签:人形机器人,AI硬件,工业应用,计算机视觉,语音交互


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

作者Jessica
邮箱JessicaZhang@pingwest.com

今年3月把GPT-4装上身,像科幻片里一样会“看听说”的机器人Figure 01,又出来硬控硅谷热搜了。

早在5天前公司推特账号就发布预告,即将官宣下一代人形机器人Figure 02。

今天凌晨,充满未来感的demo如期而至:

视频中可以看到,Figure 02的外观已焕然一新:从上一版闪银色铬金属皮肤换成了炫酷哑光黑,曲线也更流畅。演示背景脱离了实验室,来到南卡罗来纳州斯帕坦堡的一处宝马生产线上。

Figure 02展示着灵巧的手指和躯干关节,在工厂里行走,使用神经网络技术自主学习拿取和装配汽车零件。

据Figure AI称,此次工程和设计团队“从零开始完成了硬件和软件的重新设计”,在人工智能、计算机视觉、电池、电子设备、传感器和执行器等关键技术上取得了重大突破。

主要特征包括:

• 语音对话:通过机载麦克风和扬声器连接到定制的AI模型,能与人类进行对话

• 摄像头:AI 驱动的视觉系统由 6 个机载 RGB 摄像头提供支持

• 手部:第四代手部具有16个自由度,与人类力量相当

• 机载视觉语言模型(VLM):使机器人摄像头能够快速进行常识性视觉推理

• 机载电池:机器人躯干内的2.25千瓦时定制电池组,提供超过50%额外能量

• CPU/GPU:与上一代相比,机载计算和AI推理能力提升3倍

公司CEO兼创始人Brett Adcock表示, Figure 02 的概念设计评审是在去年 2 月,历时 18 个月完成,自豪称之为“地球上最先进的 AI 硬件”。

题外话:总觉得他神似马斯克

并高调回应马斯克2月底的宣战:

他也进一步透露了部分主要技术细节:

首先是语音对话推理。Figure 02 延续上一代,可以通过内置麦克风和扬声器与人类进行语音对话。这一核心功能依托于与OpenAI合作训练的定制AI模型,能够理解、处理并回应人类的语音输入。机器人以语音作为默认操作界面,意味着用户可以像跟人交谈一样自然地与Figure 02互动,而无需依赖传统的按钮或屏幕界面。

得益于机载视觉语言模型(VLM),Figure 02能通过摄像头”看懂”周围环境。进行快速的语义理解和常识性视觉推理,并做出智能判断。例如物体识别、场景理解,甚至洞悉人类的行为意图,显著增强了机器人在复杂现实世界中的适应和交互能力。

此外,Figure 02机载CPU / GPU的计算和AI推理能力是上一代产品的3倍。这一重大提升使其能够完全自主地执行现实世界中的AI任务,而无需依赖外部资源。

除软件外,Figure 02在底层硬件上也进行了几大升级。

电池配备上,Figure 02采用自主设计的2.25千瓦时内置电池组,对比Figure 01 能提供超过50%的额外能量。显著提升机器人的续航能力,实现每天长达20小时的有效工作时间,接近全天候运行。

创新的集成布线系统看似简单,实则是一项复杂的工程挑战。这种设计减少了线路故障的风险,隐藏式布线更美观和安全,紧凑的布局也优化了机器人的内部空间利用。公司还开发了定制的线缆端口和连接器,进一步提升Figure 02的整体可靠性。

6个分布在头部、前躯干和后躯干的RGB摄像头,以及 AI驱动的视觉系统,赋予Figure 02超越人类的视觉能力。这种全方位的摄像头配置实现了360度环境感知、精确深度感知和细节识别。结合先进的AI算法,使Figure 02能够快速理解眼前的复杂视觉信息,做出相应行为判断。

为了提升刚性强度并防止撞击负荷,Figure 02 还被设计成类似飞机机身的外骨骼结构:即外壳不仅用于保护内部组件,还用于提供结构支撑。与传统的内部框架相比,外骨骼可以更有效地利用材料,在不牺牲强度的情况下减轻重量,提高能源效率和移动性能。

还有一大亮点是Figure 02的第四代机器手。完全仿照人手的尺寸和功能设计,具有16个自由度和与人类相当的力量。Brett Adcock称这种设计涵盖了机械、电气、控制和传感器等各个方面,展现出的高度灵活性和强度,使手部能够执行足够广泛的人类任务。

根据Figure的控制总监Michael Rose和硬件总监Vadim Chernyak介绍,Figure 02有高达几千个部件,为了便于制造,腿部和电池等都是可更换的。

不仅如此,在Figure 02此前的预告片中,还透露出其扭矩等级高达150牛顿米(Nm),这一指标直接体现机器人在搬运物体时的力量。更引人注目的是,Figure 02运动范围(ROM)可达195度,在机器人技术领域堪称一项重大突破。

所以尽管外界一直传言,Figure AI自从上次拿到OpenAI、微软、英伟达的6.75亿美元B轮融资后,产品研发就进入难产期,起码表面上,它还是把第二代机器人给推出来了。

英伟达高级研究员Jim Fan说,“恭喜 Brett!制作高自由度灵巧手的决定绝对是正确的。”

网友Lorenz S说,“这竟然将是最差的一次。想象一下 Figure公司15 年后的样子….”

Brett Adcock也回复道,“这确实是件神奇的事,每天都在变得更好。我们没有哪一周不在进步,接下来的 18 个月里你会看到更多的激进改进,因为这将越来越多地转向软件发展。”

有人提问Figure 02的重量和行走速度。Brett回答说,虽然外骨骼减轻了质量,但由于在另一端增加了电池、摄像头、CPU/GPU,因此净重增加到 70KG。

对于速度则未做回应,大概是因为看起来,就很慢…

这个步态也成了被网友们开玩笑的槽点之一。

“一切都很酷,直到它开始走路。”

“是啊,就像拜登 02。”(嘴可以说是很毒了…)

还有自带放大镜的,注意到视频里机器人胯部的伤痕。

一些更不买账的网友认为,Figure 02的宣传片更多借鉴了消费电子产品视频的风格,而不是机器人实际工作的原始演示。换句话说,现在对于一些足够有钱的公司拿出足够fancy的demo这件事,不少人已经逐渐有了免疫力。

“我没有看到你所说的那些重大功能:它没有显示出能够听到命令,没有随机与人交谈,没有展示推理能力,也没有在工厂进行任何实际工作。你什么时候展现公正的测试演示?”

“当今 AI 公司的一个常见现象是,在技术演示中过度承诺以吸引投资者,实际中却大大低于预期。这家公司又有什么不同?”

另外也有人认为在工业制造用例中,人形机器人并不是最优解。

“在工厂里使用这些技术和工程是巨大的浪费。视频中的任务完全可以用机械臂完成。应该将 Figure 02 投入到例如商店上货架,帮助老年人做饭、打扫卫生这些任务上去。”

Figure AI几个月前开始与宝马进行试点合作,在汽车生产线训练和收集数据。通过每秒200次的像素采样到动作神经网络中进行学习,以证明其在工业级环境中的应用潜力。

加上集成了OpenAI最先进的大模型,使其超强的语音对话和视觉推理能力成为业界一大卖点。Brett曾表示,他的目标是在未来2~5年内将自主双足机器人推向市场。

当然,Figure AI并非现在唯一角力通用人形机器人赛道的公司。

去年年底,亚马逊和Playground Global投资的Agility展示了利用生成式AI改善人机通信的工作。其双足机器人Digit根据自然语言指令,成功执行了“把达斯·维达光剑颜色的箱子移动到最高塔上”的任务。

马斯克负责的Grok AI和Optimus项目也在快速发展中。并预测Grok将借助来自X、特斯拉汽车和Optimus机器人的实时数据,成为世界最领先的AI系统。同时Optimus机器人也已经在特斯拉设施中执行任务,计划在2026年开始销售。马斯克设想,未来将有百亿个Optimus机器人与Grok AI互相训练,进一步提升整体实力。

此外1X、Boston Dynamics、英伟达、谷歌也都在积极训练自己的智能机器人项目。

科技巨头和创业公司疯狂涌入,频繁刷新投资记录。无论是对生成式AI新技术的追逐,还是对错过下一个风口的恐惧,亦或是对解放生产力和探寻人机交互智能边界的渴望,人形机器人无疑是未来科技的重要方向之一。然而,各种视频中展示的高度灵活性和智能背后,其成本效益和复杂性、在真实物理环境中的实际表现、以及商业化产品周期仍是一个未知数。

这让Figure 02的亮相相比起技术展示,更像是一次对同行的震慑,和对公众、特别是投资人的交代。

又或许像CEO Brett Adcock说的那样,在完成硬件创新后,未来18个月将有越来越多的软件升级,带来更多“激进”突破。拭目以待。