12月23日,“2025中國信通院深度觀察報告會”在北京舉辦。中國信息通信研究院副總工程師許志遠在大會期間發表了自身對機器人領域的觀點和見解。

他表示,以大模型為代表的人工智能技術突破性發展,為實現通用機器人打開了大門。目前硬件解決方案基本收斂,但軟件算法仍在快速迭代創新,數據稀缺性是機器人能力泛化的關鍵制約。
人工智能為實現通用機器人打開大門
在許志遠看來,人工智能技術突破性發展,為實現通用機器人打開了大門,其核心是增強了機器人的認知與交互能力,并賦予機器人在物理世界中執行任務的強大泛化能力。
“能力泛化可以理解為一種遷移學習,即把從過去的經驗中學習到的知識、策略和行為應用到新的領域,這使機器人能夠在在動態和復雜環境中自主進行任務理解,并通過感知、決策規劃和運動控制實現任務的閉環,機器人真正成為一個可以與世界交互、存在自主智能的個體。”許志遠進一步解釋稱。
可以看到,這兩年投資市場和產業界對機器人的關注熱度高漲,具身智能和人形機器人這兩個詞匯出現的頻率很高。而中國和美國是最活躍的兩個國家,谷歌、特斯拉、OpenAI等國外頭部科技企業紛紛加碼機器人投入,國內也涌現出銀河通用、智元這樣的優秀企業,小米、小鵬等也在造人形機器人。
未來仍需聚焦硬件及軟件算法創新
據許志遠介紹,機器人的概念最早起源于上個世紀20年代,經過多年的發展,相關硬件技術趨于成熟,模塊化、高度集成等成為重要特點,移動機器人形態基本收斂至人形、四足、輪式等。
硬件創新方面,機器人主要涵蓋執行機構、傳感器、芯片、電池和新材料等技術。執行機構作為機器人本體的核心,近兩年已從液壓驅動轉向電驅動,相關旋轉和線性運動方案也基本清晰。“未來,隨著技術進步和需求聚焦,機器人將進一步與前沿仿生、類腦等技術結合,結合新材料、電子皮膚、仿生設計等技術,實現類人級感知與精巧操作。”
軟件算法方面,目前業界主流的智能機器人解決方案是將大腦和小腦分層,大腦負責交互、感知、決策,是基于現有大語言模型(LLM)或視覺語言模型(VLM),小腦負責具體的運動控制,有的是基于傳統動力學建模,也有基于模仿學習、強化學習等技術。“未來看,隨著邊緣計算增強、交互數據豐富,軟件技術可能逐步向端到端大模型驅動的一體化架構演進,以全面實現自學習、自適應和自演化能力,即只需要一個模型便可以驅動多個不同的異構機器人,例如人形、四足等。”
人形機器人仍不夠成熟,需漸進落地
談及人形機器人距離走入我們生活還有多遠這一問題,許志遠坦言,工業制造、商業服務、家庭服務將是人形機器人落地三個主要的場景,并且呈現依次漸進落地的關系,1-3年內用于汽車制造、商超補貨等封閉/半封閉場景的人形機器人將出現,而與我們共處同一環境,可幫助執行家務、助老等人形機器人產品落地可能在5年甚至10年以上。
究其原因,許志遠表示,人形機器人在環境適應性、人機交互的自然性和接受度等方面更具有優勢,是通用機器人追求的終極形態。但人形機器人不一定是完全仿照人來設計,因為現階段人形并不一定是商業化落地的最優解,短期內市場上應該還是存在“主體人形”搭配“定制化組件”,例如腿部采用輪式底盤或輪腿組合,上肢采用機械臂,手部為三指靈巧手或夾爪、吸盤等。
目前,人形機器人仍然不夠成熟。硬件方面,頭部公司的人形機器人產品除手部以外,全身有50多個自由度,如果在復雜的環境中行走需要更強大的運動控制能力。機器人上肢要想實現精細化操作,則依賴高自由度的靈巧手,但手部觸覺傳感器、執行機構等關鍵部分仍存在問題。此外,電池續航、成本、端側算力等也是機器人規模化應用的重要難題。
除硬件以外,軟件其實是機器人落地的更大挑戰。大模型的本質是數據驅動,只有基于龐大的數據量來訓練,才能實現智能的涌現。而機器人大模型與這兩年成熟的大語言模型不一樣,語言模型的數據可以來自龐大的互聯網,機器人還需要物理世界中高精度操作數據,這些數據是互聯網沒有的。只有解決了這些問題,機器人才能大規模走入我們的生活。