2月14日,逐際動力LimX Dynamics公布具身智能操作最新突破,發(fā)布基于視頻生成大模型的具身操作算法(VideoGenMotion),簡稱LimX VGM。LimX VGM通過人類操作視頻數(shù)據(jù)對現(xiàn)有的視頻生成大模型進行后訓練,僅需將場景圖片和操作任務指令作為提示Prompts,即可實現(xiàn)任務理解與拆分、物體操作軌跡生成以及機器人操作執(zhí)行的全流程,全過程零真機樣本數(shù)據(jù),并且可實現(xiàn)多平臺泛化。
據(jù)介紹,具身智能的目標是替代人類完成改變物理世界的任務,為此需要大量、多樣化且高質(zhì)量的數(shù)據(jù)進行訓練,數(shù)據(jù)來源包括真實數(shù)據(jù)、仿真數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。相較于需要耗費巨額成本獲取的真機及仿真數(shù)據(jù),互聯(lián)網(wǎng)及視頻大模型中已有海量的人類操作視頻,獲取成本最低,且包含豐富的物理常識、行為軌跡及操作決策路徑。
然而,如何把這些數(shù)據(jù)用起來,行業(yè)仍然在尋找行之有效的方法。主要挑戰(zhàn)包括:人類操作視頻無法直接應用于機器人操作;大模型雖然能夠根據(jù)這些視頻生成行為軌跡和操作數(shù)據(jù),但往往存在精度不足、偏離物理規(guī)律、存在幻覺等缺陷,即使數(shù)據(jù)準確,仍然無法直接應用于機器人操作。
通過LimX VGM,逐際動力實現(xiàn)了對人類操作視頻中操作任務本質(zhì)的理解和信息提取,從而彌合了人類操作與機器人操作之間的巨大差異,并創(chuàng)造性地提出了「數(shù)據(jù)-性能ROI」這一數(shù)據(jù)效率評估方法。
LimX VGM的工作流程包括三個關鍵步驟:1.訓練階段:采集若干真實人類操作的視頻,對現(xiàn)有的視頻生成大模型進行后訓練。2.推理階段:以初始場景結合任務操作指令作為提示Prompts,利用經(jīng)過后訓練的視頻生成大模型生成帶深度信息的人類操作視頻,進而根據(jù)人類操作視頻,生成機器人操作的行為。3.執(zhí)行階段:算法輸出符合機器人操作邏輯的行為解算,由機器人執(zhí)行相應的操作軌跡。
LimX VGM的工作流程背后是逐際動力三大具身技術核心創(chuàng)新點:人類操作視頻到機器人操作策略及行為的橋接、空間智能的引入、算法與機器人本體的解耦。
人類操作視頻到機器人操作策略及行為的橋接
LimX VGM不做視頻生成大模型,而是利用當前已有的大模型框架,及其豐富的知識和超越人類的智力。因為視頻生成大模型本質(zhì)是歷史數(shù)據(jù)的壓縮,包括視頻、圖像、文本、合成等數(shù)據(jù),其中包含的人類操作行為數(shù)據(jù)規(guī)模巨大、內(nèi)容豐富。通過有效訓練,LimX VGM能夠從中提取對執(zhí)行操作任務有用的關鍵信息,轉化為機器人操作策略及行為。
具備這一能力后,LimX VGM只需額外采集少量的人類操作視頻數(shù)據(jù),即可用于機器人操作,全程零真機數(shù)據(jù),讓數(shù)據(jù)采集工作變得簡單、成本低,且效率高。隨著大模型這個“知識庫”的不斷升級,LimX VGM將具備更加豐富、全面的操作知識,生成更有效的操作策略,進一步提升算法的泛化性。
引入空間智能,突破2D生成視頻局限
通過引入空間智能Spatial Intelligence模塊,LimX VGM對視頻生成大模型進行后訓練時,引入深度信息,讓生成的操作視頻直接包含三維空間數(shù)據(jù),這是讓機器人能夠進行物理空間操作的關鍵。LimX VGM深度信息的采集過程簡單、易得且高效,僅需通過深度相機捕捉人手真實操作過程即可。
算法與機器人本體的解耦,可跨平臺部署
LimX VGM的整個訓練過程僅依靠人類操作視頻,不涉及任何機器人本體;算法的真機部署僅需進行簡單適配,便可實現(xiàn)跨硬件平臺的直接操作執(zhí)行。LimX VGM實現(xiàn)了算法與執(zhí)行器的解耦,從根本上解決了算法與機器人本體耦合才能發(fā)揮作用的局限。
LimX VGM與機器本體解耦,即使機器人硬件不斷推陳出新,也無需再對算法進行大幅調(diào)整及數(shù)據(jù)重新采集,實現(xiàn)操作能力在設備上的泛化性。
以數(shù)據(jù)驅(qū)動為核心,關注數(shù)據(jù)效能提升
數(shù)據(jù)是具身智能廣泛應用的最大壁壘。依賴真機或仿真數(shù)據(jù)采集這一方法,雖然獲取的數(shù)據(jù)質(zhì)量較高,但是效率低、成本高,同時需要解決場景固定、物體類別單一、Sim2Real差距大、本體耦合等多重挑戰(zhàn)。因此,實現(xiàn)具身智能不僅需要找到采集有效數(shù)據(jù)的方法,數(shù)據(jù)利用率也是一個不可忽視的重要問題。
通過增加數(shù)據(jù)規(guī)模來提升泛化性能是行業(yè)的共識,逐際動力則更進一步,聚焦于數(shù)據(jù)成本到操作性能轉化率的提升,不單一追求數(shù)據(jù)規(guī)模,或者數(shù)據(jù)質(zhì)量,創(chuàng)造性地提出了「數(shù)據(jù)-性能ROI」這一評估方法,提升「數(shù)據(jù)-性能ROI」是具身操作大模型算法領先性的關鍵評價標準。
視頻生成大模型本身是巨量人類操作數(shù)據(jù)的壓縮和物理知識的儲存和擴展,LimX VGM能夠把視頻數(shù)據(jù)應用在機器人操作上,等同于僅用極低成本,就擁有了海量的操作數(shù)據(jù)和一流的操作決策能力。
生成的視頻帶有深度信息,能夠直接在三維物理空間應用。空間智能的引入,不僅讓數(shù)據(jù)更容易獲取,也進一步拓寬了操作自由度。
LimX VGM率先將人類的操作從三維空間抽象為機器人操作,讓算法原本只能使用機器人操作數(shù)據(jù)拓寬到人類操作數(shù)據(jù)。
逐際動力為具身智能領域提升數(shù)據(jù)-性能ROI提供了新的思路。
LimX VGM是逐際動力探索具身操作落地嶄新的開始,也是關鍵一步。逐際動力將以數(shù)據(jù)驅(qū)動為核心,繼續(xù)優(yōu)化LimX VGM的能力,推動算法適配Cosmos等更多先進的視頻大模型,并優(yōu)化算法推理效率,逐步實現(xiàn)實時視頻生成。同時,進一步優(yōu)化空間智能的模塊性能,提升操作執(zhí)行的精準性。
(企業(yè)供圖)
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5
電信與信息服務業(yè)務經(jīng)營許可證060344號主辦單位:《中國高新技術產(chǎn)業(yè)導報》社有限責任公司