人形機器人競速大模型 得數(shù)據(jù)者得天下


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2024-07-30





  近日,在上海2024世界人工智能大會上,人形機器人和大模型成為了兩大人氣王。


  新設的機器人專區(qū)里,25個人形機器人、各種靈活的機械臂、穿梭在過道中送水的機器狗,還有能夠幫你成為超能人——兩只手指頭就能搬起沙袋的外骨骼;大模型展區(qū)更是各種炫技,讀懂你的情緒、模擬你的動作、幫你做個個性化的診療、甚至讓你直接和你喜歡的數(shù)字名人聊天,比如羅永浩……置身其間,你似乎來到了未來世界。


  據(jù)國際機器人聯(lián)合會的數(shù)據(jù)顯示,全球人形機器人的市場規(guī)模正以每年超過20%的速度增長。預計到2025年,將達到數(shù)百億美元的規(guī)模。


  4月,首屆中國人形機器人產(chǎn)業(yè)大會發(fā)布《人形機器人產(chǎn)業(yè)研究報告》預測,2024中國人形機器人市場規(guī)模約27.6億元(人民幣,下同);2026年達104.71億元;到2029年達到750億元,將占到世界總量的32.7%,位居世界第一,到2035年規(guī)模有望達到3000億元。


  過去,由于技術不成熟,人形機器人只能提供casebycase服務,缺乏對復雜場景的認知能力,應用空間局限;同時在本體控制層,人形動作僵硬,需按照預設好的算法運行,不具備更智能的靈巧操作能力。


  隨著2023年大模型技術席卷而來,技術進步給人形機器人具身智能帶來了新轉(zhuǎn)折。從事AI賦能企業(yè)數(shù)字化的常信科技CEO葛林波表示,有了大模型的加持,“新”人形機器人已經(jīng)突破了上一代技術路徑的局限。它的革命性變化主要體現(xiàn)在:實現(xiàn)了更高層次的抽象理解和推理能力,大幅提升了非結(jié)構(gòu)化環(huán)境中的適應性,使機器人具備了更接近人類的認知決策能力,并能實現(xiàn)跨領域知識遷移和自主學習。


  “人形機器人也許將是AI在演進中最重要的應用場景?!绷柙浦悄茉瑿EO祝凌云直言。


  大模型帶動行業(yè)變革


  大模型的加入相當于為機器人安裝了一個大腦,讓它可以對周圍環(huán)境做出更加深入的理解。


  達闥在上海2024世界人工智能大會上展出的人形雙足機器人XR4小紫,搭載了大模型RobotGPT。人工智能公司OpenAI與人形機器人公司FigureAI合作,推出了大模型加持的人形機器人Figure01。


  “目前,國內(nèi)許多人形機器人已經(jīng)接入大模型。據(jù)不完全統(tǒng)計,截至目前,優(yōu)必選、傅立葉、智源以及北京銀河通用等企業(yè)均已載入大模型,科大訊飛人形機器人主要基于自研的星火大模型。”科大訊飛機器人首席科學家季超對中國工業(yè)報表示。


  而在3月人形機器人大賽現(xiàn)場,中國工業(yè)報聽到最多的一句話就是,“在大模型賦能下,人形機器人將是具身智能最佳的載體?!?/p>


  具身智能,是指在機器智能領域中,通過將智能算法與物理實體的感知、行動和環(huán)境交互相結(jié)合,使機器能夠以更自然、更智能的方式與環(huán)境進行交互和解決問題的能力。人形機器人作為通用人工智能具象化載體,與人工智能大模型相結(jié)合,就可以感知物理世界,利用多模態(tài)感知控制自己的身體,完成復雜的任務。


  從2010年開始至2023年具身智能熱爆發(fā),國內(nèi)人形機器人技術路徑劃分為兩個階段。


  第一階段為具體任務、單個場景的技術路徑階段。如針對特定園區(qū)設置運輸線路,搬運機器人就可在固定路徑上完成配送,穩(wěn)定性強;多條路線下,用算法提前規(guī)劃即可。但機器人一旦脫離該設定,便無法運轉(zhuǎn)。因此,面對新場景、新任務,人形機器人都需要重新收集數(shù)據(jù)訓練、設定方案和測試。


  “過去,機器人工作可能停留在‘小腦’層面,即如何讓機器人更穩(wěn)定行走,機械臂控制更靈活,這本質(zhì)上與業(yè)務流程存在較大鴻溝?!奔境瑢χ袊I(yè)報解釋道,例如,過去,機器人從A點走到B點,或者在流水線上抓取某些物品,但它并不了解為何要走到B點,以及為什么要抓取物品。“如果機器人只完成這些基礎功能,就無法滿足業(yè)務場景的需求?!?/p>


  “如果一家電力公司發(fā)生燃氣泄漏或有毒氣體泄漏,而變壓器存在放電等危險,我們希望人形機器人可以代替人進入有潛在風險的工作場景,識別并關閉閥門,再打開窗戶。我們需要將任務與實際業(yè)務流程結(jié)合,基于大模型進行微調(diào),形成基于任務場景下的多模態(tài)矩陣大模型。讓機器人能夠按照我們對場景的理解,進行一系列基于時間序列的穩(wěn)步操作?!奔境硎?,“大模型的加入相當于為機器人安裝了一個大腦,讓它可以對周圍環(huán)境做出更加深入的理解。大模型的核心能力主要體現(xiàn)在對環(huán)境的理解和認知推理能力顯著增強?!?/p>


  第二階段則是以具身智能為代表的技術路徑更強調(diào)泛化性,追求多場景適配。大模型能解決多種任務,機器人可以完成單任務式交付到規(guī)?;瘧玫目赡堋?/p>


  “過去,大家對機器人的要求是提前把事項預編好,執(zhí)行就可以了。但人們希望人形機器人既能是個熟練的螺絲工,同時又具備質(zhì)檢等其他工作能力,可靈活配置,最終替代工廠里的員工完成繁重、枯燥性工作,而不是替掉現(xiàn)有的重型機械臂、傳送帶等?!睒肪蹤C器人副總裁柯真東對媒體表示。


  應對場景差異化就需要泛化的大腦。對人形機器人而言,這需要實現(xiàn)兩大能力提升:一是語言理解能力。季超介紹,載入大模型后,機器人對于人類下發(fā)的復雜指令或者工作過程中的復雜指令,可以做到更深入的理解和拆解。這是過去對環(huán)境的感知和行為決策方面的大幅度提升。


  二是學習能力。非結(jié)構(gòu)化的環(huán)境下,大模型加上多維傳感器,能夠?qū)W習、識辨并構(gòu)建環(huán)節(jié),在mobile(移動)、pick(抓?。lace(搬運)三大基礎能力之上,讓人形機器人具備多場景作業(yè)的能力。


  葛林波表示,大模型在人形機器人領域解決了語言理解、場景認知和動作規(guī)劃等關鍵挑戰(zhàn),顯著提升了機器人在復雜環(huán)境中的適應性和交互能力。在場景突破方面,大模型的賦能主要體現(xiàn)在提高人形機器人對新場景認知的泛化能力、通過少樣本學習快速適應新環(huán)境、增強對復雜動態(tài)場景的理解能力,以及實現(xiàn)更高級的任務分解和規(guī)劃。


  “泛化性本質(zhì)在于,任意場景、任意物體、任意情形下,機器人mobile、pick、place都能成功?!北贝?銀河通用具身智能聯(lián)合實驗室主任王鶴表示。


  數(shù)據(jù)是關鍵


  數(shù)據(jù)是人形機器人未來的靈魂。而當下,人形機器人缺少規(guī)?;瘮?shù)據(jù)則是整個行業(yè)最大的痛點。


  作為集AI技術、軟件算法、運動控制、硬件結(jié)構(gòu)等為一體的移動終端,人形機器人是目前公認的難度系數(shù)最高的產(chǎn)品。而訓練數(shù)據(jù)采集的難度,是橫亙在人形機器人規(guī)模化落地面前的一座大山。


  在上海2024世界人工智能大會“人形機器人與具身智能發(fā)展論壇”上,不少專家都提道:數(shù)據(jù)是人形機器人未來的靈魂。而當下,人形機器人缺少規(guī)?;瘮?shù)據(jù)則是整個行業(yè)最大的痛點。


  季超表示,由于大模型和具身智能機器人遵循ScalingLaw(尺度定律的路線,模型能力可以理解為模型的損失函數(shù),模型尺度指模型參數(shù)量、訓練數(shù)據(jù)量、訓練步數(shù)等。機器的訓練學習,隨著量的增加,效果提升就變得越來越緩慢,因此選擇合適的量就好),因此對數(shù)據(jù)要求較高。當前機器人數(shù)據(jù)規(guī)模不如大模型,這類數(shù)據(jù)獲取難度和規(guī)模積累仍然不足。但要真正實現(xiàn)具身智能落地應用,就得要讓機器人能像人類一樣,學習積累不同場景下的應對方式,擁有“經(jīng)驗和知識”。


  清華大學研究員蘇航認為,業(yè)內(nèi)對人形機器人的關注從“專用場景解決具體問題”(靈巧性)到強調(diào)泛化性,主要還是出于降低成本考量,“原來一個場景應用一款機器人,(如果)泛化性可以做到足夠好,一個機器人就可以在十個場景、百個場景應用,就可以實現(xiàn)規(guī)?;瘓鼍昂鸵?guī)模化效應,一旦實現(xiàn)規(guī)?;?,機器人的成本就可以拉到BOM(構(gòu)建制造產(chǎn)品所需的原材料、組件、子組件等材料的詳細清單)成本之下。所以,數(shù)據(jù)驅(qū)動的泛化性是人形機器人應用的核心?!?/p>


  蘇航說,目前,實驗室收集到全網(wǎng)能夠獲取的所有人形機器人的數(shù)據(jù),包括各種AI操作的數(shù)據(jù),距離泛化性要求仍差2-3個數(shù)量級。哪怕達到GPT3.5的水平也差2-3個數(shù)量級。因此,構(gòu)建數(shù)據(jù)集和訓練場非常有價值,而如何結(jié)合真實數(shù)據(jù)和仿真數(shù)據(jù)一起做這件事則非常重要。


  特斯拉擎天柱能在有限簡單場景下進行自主作業(yè),其核心依靠數(shù)據(jù)驅(qū)動:采集海量的優(yōu)質(zhì)數(shù)據(jù),覆蓋各類場景和物體,并通過具身智能提煉泛化能力。


  目前,人形機器人公司對數(shù)據(jù)的需求可以分為三類:


  一是通過數(shù)據(jù)理解世界規(guī)律。通過大量數(shù)據(jù)學習,讓機器人理解任務意圖。二是借助模擬數(shù)據(jù)學習邏輯推理和決策能力。借助模擬環(huán)境,可以讓機器人掌握各種抓取方法。三是真實場景的應用數(shù)據(jù)。三類數(shù)據(jù)不同側(cè)重點會影響人形機器人的精度和成功率。


  “人形機器人最終落地是多種形態(tài)的,要提前做產(chǎn)業(yè)化布局,就意味著它需要提前進入場景,獲取數(shù)據(jù)、再不斷迭代,去適配場景的真實需求?!毙莿蛹o元聯(lián)合創(chuàng)始人席悅對媒體表示。


  真實數(shù)據(jù)的增加有利于機器人提高智能水平。但要跨越鴻溝,真實數(shù)據(jù)需要提高多樣性和質(zhì)量,并非單純數(shù)量堆砌。


  “這一點,人形機器人有天然的優(yōu)勢,它的數(shù)據(jù)可以更直接從人類的行為數(shù)據(jù)里獲取或者遷移過來?!敝袊诵螜C器人百人會副秘書長、星動紀元創(chuàng)始人、清華大學交叉信息研究院助理教授陳建宇表示。


  祝凌云也認為,人形機器人的大模型更需要運動和感官的數(shù)據(jù)支持,實質(zhì)上就是機器學習,誰的用戶多誰就能領跑。


  在優(yōu)必選使用的訓練數(shù)據(jù)中,由Tele-operation(遠程控制)所收集的真實數(shù)據(jù)占20%,此外,還有80%的數(shù)據(jù)通過仿真環(huán)境合成獲得。


  “由于真實數(shù)據(jù)稀缺,采集難度大、成本高,仿真合成數(shù)據(jù)被許多人形機器人企業(yè)視為解決數(shù)據(jù)問題的最優(yōu)解?!弊A柙平ㄗh。


  達闥機器人用數(shù)字孿生方案搭建了一套實時同步、虛實轉(zhuǎn)換的數(shù)據(jù)收集系統(tǒng),通過傳感器,將人所在環(huán)境掃描并傳輸?shù)皆贫?,?0Hz/秒進行重建,將機器人放置在孿生環(huán)境中進行訓練。將機器人看作一個NPC(是non-playercharacter的縮寫,指在游戲中不受玩家操控的一種角色類型),各項任務是一個個游戲,用AI驅(qū)動人形機器人在“游戲”中運行。


  “這時候,我們要多少合成數(shù)據(jù)就有多少,需要什么場景也可以通過數(shù)字孿生的方式隨時搭建。當數(shù)據(jù)在時間軸上被拉長、以切片形式存在,突發(fā)問題也變成了靜止問題。”達闥機器人創(chuàng)始人黃曉慶說。


  當然,合成數(shù)據(jù)的劣勢在于,它與真實數(shù)據(jù)之間存在數(shù)據(jù)分布的差異,實時性不強,在落地時,會面臨更高要求的精度問題。


  但“目前市場上,能夠在同一個階段把幾類數(shù)據(jù)都同步做好的公司幾乎沒有,普遍做法是根據(jù)自身的技術優(yōu)勢,優(yōu)先從擅長方向切入?!惫庠促Y本董事總經(jīng)理婁洋表示,“當前以具身智能為核心的新一代人形機器人公司,在場景側(cè)的選取和市場端的切入上尚未達成共識。有些探索進度快,有些相對較慢,但進度更快的公司所選取的路徑,并不一定代表著該場景的最優(yōu)解。目前,場景落地的可行性和優(yōu)劣與否還沒有明確答案?!?/p>


  如工廠對機器人的要求通常以精準成本為導向,期待機器人能夠每天完成固定的任務,確保生產(chǎn)的穩(wěn)定性。然而,人形機器人的智能水平提升需要更強的泛化性和應變能力。與生活場景相比,工業(yè)環(huán)境能提供給機器人的反饋和學習機會相對受限。存在落地成本不確定,以及數(shù)據(jù)訓練和實際應用轉(zhuǎn)化之間的錯配問題。


  葛林波表示,獲取高質(zhì)量、多樣化的機器人操作數(shù)據(jù)仍然是一個重要挑戰(zhàn),未來可能需要更先進的數(shù)據(jù)采集系統(tǒng)、虛擬仿真環(huán)境和數(shù)據(jù)增強技術來解決這個問題。


  今年5月,國地中心在上海成立,這是國內(nèi)首個人形機器人領域公共平臺。目前,國地中心正在浦東建設一個能夠容納100個人形機器人進行智能訓練的訓練場,11月將完成一期建設;預期到2027年該訓練場可以擴大到能夠容納1000個人形機器人訓練。


  中國人形機器人百人會副秘書長,北京市人形機器人創(chuàng)新中心有限公司CEO熊友軍也在3月機器人大賽上公布了大模型計劃:未來將與人形機器人創(chuàng)新中心產(chǎn)業(yè)聯(lián)盟的一些合作單位,共同構(gòu)建數(shù)據(jù)收集平臺以及大模型訓練平臺,主要面向工業(yè)場景下語言動作的操作數(shù)據(jù)收集和訓練。同時也會訓練面向工業(yè)場景的大模型,跟大家一起構(gòu)建虛擬平臺。


  王鶴說,要讓機器人認識世界,需要一個“對時間、空間、物理定律有比較細粒度的表達”的世界模型,但是,“這件事情不是現(xiàn)在任何一個軟件平臺,或任何一個智能模型能做到的?!币屓诵螜C器人能真正成為千家萬戶的家務型、陪伴型使用機器人,還需要很長一段時間的努力。(王珊珊 左宗鑫)


  轉(zhuǎn)自:中國工業(yè)報

  【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉(zhuǎn)載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964