從簡單的獨立行走到精準的前后空翻,從經過反復訓練才能抓取物品到無須訓練就能聽從指令處理家務……人形機器人的“進化”速度令人驚訝。最近,硅谷機器人創新公司Figure AI的最新大模型Helix亮相,業內有觀點認為,Helix的能力“前所未有”,讓機器人能夠像人一樣思考與行動。Figure AI這次發布究竟有哪些重大突破?它會是現階段人形機器人的主流發展方向嗎?中外人形機器人具有哪些不同的發力方向?《環球時報》記者對此進行了采訪和調查。

Figure AI公司兩個共用“大腦”的機器人配合完成一系列復雜任務
這個刷屏的美國機器人有啥絕活
在Figure AI公布的一段近3分鐘視頻里,兩臺Figure人形機器人按照工作人員的指令,配合默契地將一堆食物與雜貨放入冰箱等相應的位置。
美國機器人網站The Robot Report提到,視頻中有幾個值得注意的要點,例如兩個機器人并不進行語言交流,但它們在互動過程中會有明顯的停頓,它們盯著對方,似乎是一種不可思議的“心靈感應”。
按照Figure AI公司的說法,兩臺機器人共用一個大模型“大腦”,協作完成復雜任務,這在行業內是首例。此外,Helix還創造了其他多項“第一”:它是全球首個能夠對整個人形機器人上半身進行高頻率、連續控制的視覺-語言-動作(VLA)模型;它僅需接收自然語言指令,就能拾取幾乎任何小型家用物品,包括數千種它從未見過的物品。這些體現了人形機器人的“泛化”能力。
“Helix最大的突破在于它是一個‘通用’的視覺-語言-動作(VLA)模型。這意味著它將機器人的視覺感知、自然語言理解和動作控制整合到了一個統一的框架中,這就是有點奔著端到端具身智能大模型方向去了。”一位人工智能專家告訴《環球時報》記者,傳統的機器人系統往往針對特定任務進行設計,需要大量的編程工作,難以適應新的環境和任務。而Helix模型則具備更強的泛化能力,能夠理解自然語言指令,并處理之前從未見過的任務,這大大減少了對特定任務演示或大量手動編程的需求。
《環球時報》記者在調查和采訪中了解到,Helix模型目前還存在一些短板。首先,Helix目前主要應用于Figure機器人的上半身控制,包括手腕、頭部、手指甚至軀干。這意味著,對于下半身的控制,比如行走、奔跑等,可能還需要進一步研發和完善。其次,盡管Helix在數據利用效率上表現出色,但其訓練所用的數據量仍然相對較少,這可能會影響它在處理更復雜、更多樣化任務時的表現。
代表未來發展方向嗎
值得關注的是,大模型與人形機器人的融合日益加深。Helix模型不僅讓機器人能夠“看懂”“聽懂”,更重要的是,能夠讓機器人根據所見所聞,做出相應的行動。這打破了以往機器人技術中感知、理解和行動之間的壁壘,實現了更高層次的智能化。有專家告訴記者,Helix模型可以被視為人形機器人發展歷程中的一個重要節點,是數字化的AI模型與物理世界的真實交互,是一種“虛實融合”。
《環球時報》記者在采訪中了解到,從Helix的架構來看,它與最近一篇發表在2024年機器人學習大會(CoRL)上的論文“非常相似”。
“Figure AI認可了這條路線并成功移植到實體機器人上。Helix的出現證明了‘具身智能’方向的迭代速度越來越快,許多最新提出的技術路線能迅速落地到真實機器人身上。不過,目前我們依然處在技術爬坡階段,量產仍是具身智能機器人領域面臨的最大挑戰。”深圳市人工智能與機器人研究院具身智能中心主任劉少山對《環球時報》記者表示。
業內普遍認為,“端到端”具身智能大模型是人形機器人發展的重要方向之一。即希望機器人能夠像人一樣,直接根據眼睛看到的、耳朵聽到的信息,做出相應的反應,然后去執行任務。
“像Helix這樣的通用型VLA(視覺-語言-動作)模型,很可能代表了人形機器人大模型的一種主流發展方向。從目前的技術趨勢來看,人形機器人需要的大模型,不僅僅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精確性)。”專家說。
不過,“端到端”具身智能大模型并非是人形機器人發展的唯一目標,也不是現階段的全部。業界還存在另一種技術路線,即基于LLM(大語言模型)或VLM(視覺-語言模型)的分層大模型。此方案難度低一些,一般將任務分解為感知、決策、執行等多個模塊,每個模塊可以使用不同的模型來實現,更易于快速落地和迭代。一些行業內的頭部企業,都采用了這種方案。
劉少山表示,與聊天式大模型相比,具身智能大模型更需要的是強大的“學習能力”——它必須能在陌生環境中,通過與環境的交互不斷學習和進化。當前大模型大多是從海量數據中提取知識,而具身智能則強調“學習如何學習”,而非簡單記憶已有的知識。只有具備這類元學習、上下文強化學習等理論基礎,才能真正實現通用智能。雖然這類研究方向提供了思路,但還需要時間來發展和完善。
國內外機器人各有側重
全球人形機器人的技術競賽正在升溫,新技術亮相越來越密集。近日,國產“天工”機器人成為全球首例可在室外連續攀爬多級階梯的人形機器人。“天工”實現了基于視覺的感知行走,可實現無磕碰、不踩棱、不踏空地跨越連續多級樓梯和35厘米大高差臺階,奔跑時速提高至12公里,并且能在雪地進行高速奔跑。深圳一家機器人公司的產品則完成了全球首例人形機器人“前空翻”特技。
“與Figure的最新機器人技術相比,國內的機器人是在不同領域各有側重。”一位人工智能專家告訴《環球時報》記者,國內機器人公司在運動控制方面取得了顯著成果,例如跳舞、空翻等。這些機器人可能在部分處理復雜任務,特別是涉及與環境的深度交互、理解自然語言指令等方面,與Figure相比可能有一定差距。
何時能像人一樣思考
在Helix的加持下,人形機器人能夠直接理解自然語言、解析視覺信息,并執行相應動作。有科技媒體評論稱,Helix讓機器人像人一樣思考和行動。Figure AI首席執行官宣稱,“Helix的思維方式類似于人類。”劉少山認為,“目前仍處于行業的早期階段,要讓人形機器人真正具備與人類相似的思維能力,還有很長的路要走。即便最先進的大模型,在幾乎無限算力的支持下,與人類的思維方式和水平依然存在顯著差距。”
另一位專家稱,綜合國內外多篇論文來看,目前最先進的大模型應該定性于“初始AGI(通用人工智能)”階段,雖然能力很強,但仍局限于特定領域,比如做題目等,無法在所有通用任務中始終超越人類。要實現真正像人一樣思考,人形機器人需要實現通用人工智能(AGI)乃至超級人工智能(ASI)。這就得包括更先進的算法、更強大的計算能力、更完善的感知系統,以及對人類大腦工作機制的更深入理解。“這是一個長期、漸進的過程,可能需要十幾年、幾十年甚至更長時間。”
“大家都是在黑暗中摸索,你現在走的路線看似取得了一定成果,最后這個路線就一定能走得通嗎?這個問題沒有人能夠給出答案。”上述不具名專家告訴《環球時報》記者,發展未來產業的精神,就是在不確定性中尋找最大的確定性。階段性的成果也能夠形成較好的規模應用,造福社會,賦能產業。“我們一開始奔著終極目標,哪怕遭遇挫折,有部分技術轉化為成果也可以,并不強求非得造出一個全知全能的AGI。”
專家在受訪時還提到,未來人形機器人可能會出現新的形態。一方面,機器人不必非得是人形,“實際上人形態并不是專業場景下最好的選擇,有時候輪式甚至機械臂工作效果更好、性價比更高。”另一方面,人形機器人可能會呈現虛擬形態,類似更智能、更完善的數字人。“類似于電影《流浪地球2》中的MOSS系統,也有一定的可能,但這些距離現實還相當遙遠。”