聞樂(lè) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
機(jī)器人終于不用散裝大腦了!
字節(jié)Seed一個(gè)模型就能搞定機(jī)器人推理、任務(wù)規(guī)劃和自然語(yǔ)言交互。
經(jīng)常做機(jī)器人的朋友都知道,以前想讓機(jī)器人干活,得先解決一個(gè)煩人的問(wèn)題——
模塊之間的信息代溝。
能聽(tīng)懂指令和能完成指令可完全不是一回事,以前要讓機(jī)器人聽(tīng)懂人話,得裝個(gè)專門的語(yǔ)言交互模塊;要讓它能避開(kāi)障礙從客廳走到陽(yáng)臺(tái),又得搭一套任務(wù)規(guī)劃模塊;要想……還得……
于是不同模塊在機(jī)器人身上拼湊使用苦開(kāi)發(fā)者久矣。
但現(xiàn)在,字節(jié)Seed推出了Robix視覺(jué)——語(yǔ)言單模型,把三件事全包了,也不用搞多模塊拼接那套了。
所以,這是怎么做到的呢?
核心采用思維鏈推理和三階段訓(xùn)練策略
Robix是一款專門給機(jī)器人用的模型。核心想法是讓一個(gè)模型同時(shí)搞定三件事:
琢磨怎么干活(推理)安排干活步驟(任務(wù)規(guī)劃)跟人聊天溝通(自然語(yǔ)言交互)
首先,團(tuán)隊(duì)的思路是把機(jī)器人系統(tǒng)分為兩層,高層認(rèn)知和底層執(zhí)行,Robix就是管高層認(rèn)知的。
底層(VLA)來(lái)執(zhí)行Robix發(fā)出的命令。
而Robix本身也并不是多個(gè)模塊拼合的散裝大腦,而是一個(gè)視覺(jué)-語(yǔ)言融合的單模型,能同時(shí)處理畫面、語(yǔ)言,還能把思考過(guò)程、動(dòng)作指令、人類回復(fù)整合在一個(gè)邏輯循環(huán)里,避免模塊間溝通卡頓。
Robix核心采用思維鏈推理和三階段訓(xùn)練策略。
在推理與決策方面,采用思維鏈,根據(jù)輸入信息進(jìn)行深思熟慮的推理。
在推理過(guò)程中,它會(huì)考慮當(dāng)前場(chǎng)景中的物體、空間關(guān)系、任務(wù)要求等因素,預(yù)測(cè)下一步的思考方向、行動(dòng)方案以及可選的語(yǔ)言回復(fù)。
這個(gè)過(guò)程是一個(gè)迭代的決策過(guò)程,每一步?jīng)Q策都基于當(dāng)前的觀察和之前的交互歷史。
再來(lái)說(shuō)說(shuō)Robix是怎么訓(xùn)練的。
三階段是分為持續(xù)預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。
在持續(xù)預(yù)訓(xùn)練階段,用大量機(jī)器人相關(guān)的數(shù)據(jù),教它看懂3D空間、把語(yǔ)言和畫面對(duì)應(yīng)上,學(xué)會(huì)能判斷任務(wù)進(jìn)度的能力。
在監(jiān)督微調(diào)階段,模擬收拾餐桌、超市購(gòu)物這些真實(shí)場(chǎng)景,教它處理各種指令、按邏輯一步步想問(wèn)題,同時(shí)讓它學(xué)會(huì)跟人簡(jiǎn)單對(duì)話,做到能聽(tīng)懂、會(huì)規(guī)劃、能聊天。
在強(qiáng)化學(xué)習(xí)階段,用專門算法糾正“想的和做的不一樣”的問(wèn)題,通過(guò)“做對(duì)給獎(jiǎng)勵(lì)、做錯(cuò)給提醒”的方式,讓它在長(zhǎng)時(shí)間任務(wù)里決策更穩(wěn)、動(dòng)作更準(zhǔn)。
至于效果,團(tuán)隊(duì)給出了一些測(cè)試數(shù)據(jù)。
在基礎(chǔ)能力測(cè)試上,Robix的兩個(gè)版本(7B和32B)在8個(gè)空間理解任務(wù)中有7個(gè)比Qwen2.5-VL 表現(xiàn)好,平均準(zhǔn)確率更高;
并且在多數(shù)基準(zhǔn)測(cè)試中超越了閉源的GPT-4o、Gemini 2.5 Pro等。
離線評(píng)估中,Robix-32B-RL在所有評(píng)估集上排名第一。
在模擬真實(shí)環(huán)境的交互測(cè)試,使用UMI設(shè)備在線評(píng)估,Robix-32B在5個(gè)任務(wù)中的3個(gè)超越Gemini 2.5 Pro,且平均任務(wù)進(jìn)度略高,且大幅超越Qwen2.5-VL-32B。
而使用GR-3進(jìn)行在線評(píng)估時(shí),在自動(dòng)化真實(shí)機(jī)器人評(píng)估中,Robix-32B的平均任務(wù)進(jìn)度達(dá)到92.5%,分別比Gemini 2.5 Pro和GPT-4o高出4.3和28.1個(gè)百分點(diǎn)。
看來(lái),機(jī)器人模型以后拼的可能就不是模塊數(shù)量而是單一模型的綜合能力了。
One More Thing
值得關(guān)注的是,Robix項(xiàng)目的負(fù)責(zé)人,正是字節(jié)AI實(shí)驗(yàn)室的負(fù)責(zé)人李航博士,更早之前,他曾擔(dān)任華為諾亞方舟實(shí)驗(yàn)室主任和首席科學(xué)家。
△圖源:李航微博
他于2017年加入字節(jié),后帶領(lǐng)團(tuán)隊(duì)開(kāi)展字節(jié)的機(jī)器人項(xiàng)目。
在今年6月,有知情人透露李航已經(jīng)退休,但字節(jié)相關(guān)負(fù)責(zé)人則馬上表示他還將以返聘顧問(wèn)的形式進(jìn)行工作,且工作范圍不變。
另外,李航老師在2022年出版的《機(jī)器學(xué)習(xí)方法》,據(jù)說(shuō)從2018年開(kāi)始就在構(gòu)思與寫作……
△圖源:李航微博
現(xiàn)在還新增了深度學(xué)習(xí)內(nèi)容,目前新版已經(jīng)上市,如果想深入學(xué)習(xí)機(jī)器學(xué)習(xí)的朋友,也可以去追書哦~
技術(shù)報(bào)告:https://robix-seed.github.io/robix/論文地址:http://arxiv.org/abs/2509.01106