ADEY1199

備受矚目的人形機器人新創 Figure AI,不只推出兩代人形機器人,2/20 更宣布推出全新 AI 模型「Helix」,讓機器人理解語音、推理、抓住任何物品,演示讓 2 台人形機器人一起協作整理雜貨的影片。

事實上,幾周前, Figure AI 創辦人兼執行長 Brett Adcock 突然宣布退出與 OpenAI 共同開發 AI 模型的協議,轉向自行研發,並稱 30 天內推出「人形機器人上從未見過的東西,」或許指的就是 Helix。究竟 Helix 背後有哪些 AI 技術突破?

首創雙系統 AI 模型,細緻控制機器人上半身

Helix 是一款通用視覺-語言-動作(VLA)模型,可以整合感知、語言理解和學習控制。事實上,VLA 是機器人新興技術,利用視覺和語言命令來處理資訊,最知名的例子是 Google DeepMind 的 RT-2,透過視訊和大語言模型的組合來訓練。

Helix 的工作原理類似,根據 Figure AI,他們首創了「系統 1、系統 2」VLA 模型,可以針對人形機器人的上半身進行高速、靈巧的控制。這是因為他們過去遇到的困難:採用 VLM(視覺大語言模型)雖然通用但不快,使用機器人視覺運動策略快但是不通用,Helix 整合兩個互補系統來解決問題

Figure AI 指出,Helix 消解了語言理解和機器人控制之間的差距──當被提示「拿起沙漠的物品」較為抽象的概念,Helix 不只能識別符合這個概念的玩具仙人掌,還能使用最近的手來牢牢抓住。Figure AI 認為,通用的「語言到動作」掌握能力,為他們開啟新的可能性。

此外,Helix 是第一款對整個人形上身(包括手腕、軀幹、頭部和各個手指)進行高速率連續控制的 VLA。

零樣本執行新任務!還能協調 2 台機器人

更特別的是,Helix 是第一個能同時在 2 台機器人上運行的 VLA,讓機器人只要透過人類的自然語言提示,就能解決一項共享的、長期操作的任務,包含數千種它們從來沒見過的物品。

這兩台機器人如何協作?它們透過接收自然語言指令進行協作,例如:「把餅乾袋遞給你右邊的機器人」或「接過你左邊機器人遞來的餅乾袋,並放入開著的抽屜中」。

Figure AI 表示,他們在測試中展示了兩大突破。第一,這些機器人成功操控在訓練過程中沒見過的雜貨商品,展現了對不同形狀、尺寸和材質的強大通用能力。第二,兩台機器人使用相同的 Helix 模型權重,無需針對個別機器人進行特定訓練或明確分配角色。

瞄準家用機器人,需要根本性的方法突破

《TechCrunch》報導,一般來說,業界的策略是先為工業客戶開發機器人,以提升可靠性並降低成本,之後再考慮進軍家庭市場。至於家務機器人,可能還要再等幾年才會成為現實討論的話題,不過透過 Helix 的演示,Figure AI 顯然把家用機器人放在優先事項。

究竟為何要研發 Helix 模型,Figure AI 就表示,家庭是機器人技術面臨的最大挑戰──環境充滿無數難以預測形狀、大小、顏色紋理的物品,但是目前機器人訓練的方法不是需要博士級的專家手動 coding,就要進行數千次演示,如果不改變方法就難以擴展到家庭領域。

本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:Figure AI 發表人形機器人大腦「Helix」!零樣本就能叫 2 個機器人做家事?