發(fā)布時間:2025-09-06 來源:觸物傷情網(wǎng)作者:guang1231
聞樂 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
機器人終于不用散裝大腦了!
字節(jié)Seed一個模型就能搞定機器人推理、任務規(guī)劃和自然語言交互。
經(jīng)常做機器人的朋友都知道,以前想讓機器人干活,得先解決一個煩人的問題——
模塊之間的信息代溝。
能聽懂指令和能完成指令可完全不是一回事,以前要讓機器人聽懂人話,得裝個專門的語言交互模塊;要讓它能避開障礙從客廳走到陽臺,又得搭一套任務規(guī)劃模塊;要想……還得……
于是不同模塊在機器人身上拼湊使用苦開發(fā)者久矣。
但現(xiàn)在,字節(jié)Seed推出了Robix視覺——語言單模型,把三件事全包了,也不用搞多模塊拼接那套了。
所以,這是怎么做到的呢?
核心采用思維鏈推理和三階段訓練策略
Robix是一款專門給機器人用的模型。核心想法是讓一個模型同時搞定三件事:
琢磨怎么干活(推理)安排干活步驟(任務規(guī)劃)跟人聊天溝通(自然語言交互)
首先,團隊的思路是把機器人系統(tǒng)分為兩層,高層認知和底層執(zhí)行,Robix就是管高層認知的。
底層(VLA)來執(zhí)行Robix發(fā)出的命令。
而Robix本身也并不是多個模塊拼合的散裝大腦,而是一個視覺-語言融合的單模型,能同時處理畫面、語言,還能把思考過程、動作指令、人類回復整合在一個邏輯循環(huán)里,避免模塊間溝通卡頓。
Robix核心采用思維鏈推理和三階段訓練策略。
在推理與決策方面,采用思維鏈,根據(jù)輸入信息進行深思熟慮的推理。
在推理過程中,它會考慮當前場景中的物體、空間關系、任務要求等因素,預測下一步的思考方向、行動方案以及可選的語言回復。
這個過程是一個迭代的決策過程,每一步?jīng)Q策都基于當前的觀察和之前的交互歷史。
再來說說Robix是怎么訓練的。
三階段是分為持續(xù)預訓練、監(jiān)督微調(diào)和強化學習。
在持續(xù)預訓練階段,用大量機器人相關的數(shù)據(jù),教它看懂3D空間、把語言和畫面對應上,學會能判斷任務進度的能力。
在監(jiān)督微調(diào)階段,模擬收拾餐桌、超市購物這些真實場景,教它處理各種指令、按邏輯一步步想問題,同時讓它學會跟人簡單對話,做到能聽懂、會規(guī)劃、能聊天。
在強化學習階段,用專門算法糾正“想的和做的不一樣”的問題,通過“做對給獎勵、做錯給提醒”的方式,讓它在長時間任務里決策更穩(wěn)、動作更準。
至于效果,團隊給出了一些測試數(shù)據(jù)。
在基礎能力測試上,Robix的兩個版本(7B和32B)在8個空間理解任務中有7個比Qwen2.5-VL 表現(xiàn)好,平均準確率更高;
并且在多數(shù)基準測試中超越了閉源的GPT-4o、Gemini 2.5 Pro等。
離線評估中,Robix-32B-RL在所有評估集上排名第一。
在模擬真實環(huán)境的交互測試,使用UMI設備在線評估,Robix-32B在5個任務中的3個超越Gemini 2.5 Pro,且平均任務進度略高,且大幅超越Qwen2.5-VL-32B。
而使用GR-3進行在線評估時,在自動化真實機器人評估中,Robix-32B的平均任務進度達到92.5%,分別比Gemini 2.5 Pro和GPT-4o高出4.3和28.1個百分點。
看來,機器人模型以后拼的可能就不是模塊數(shù)量而是單一模型的綜合能力了。
One More Thing
值得關注的是,Robix項目的負責人,正是字節(jié)AI實驗室的負責人李航博士,更早之前,他曾擔任華為諾亞方舟實驗室主任和首席科學家。
△圖源:李航微博
他于2017年加入字節(jié),后帶領團隊開展字節(jié)的機器人項目。
在今年6月,有知情人透露李航已經(jīng)退休,但字節(jié)相關負責人則馬上表示他還將以返聘顧問的形式進行工作,且工作范圍不變。
另外,李航老師在2022年出版的《機器學習方法》,據(jù)說從2018年開始就在構(gòu)思與寫作……
△圖源:李航微博
現(xiàn)在還新增了深度學習內(nèi)容,目前新版已經(jīng)上市,如果想深入學習機器學習的朋友,也可以去追書哦~
技術(shù)報告:https://robix-seed.github.io/robix/論文地址:http://arxiv.org/abs/2509.01106