字節(jié)發(fā)了個(gè)機(jī)器人全能大模型，帶隊(duì)人李航

2025-09-06 14:41:43分類(lèi)：通遼閱讀(87357)

聞樂(lè) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

機(jī)器人終于不用散裝大腦了！

字節(jié)Seed一個(gè)模型就能搞定機(jī)器人推理、任務(wù)規(guī)劃和自然語(yǔ)言交互。

經(jīng)常做機(jī)器人的朋友都知道，以前想讓機(jī)器人干活，得先解決一個(gè)煩人的問(wèn)題——

模塊之間的信息代溝。

能聽(tīng)懂指令和能完成指令可完全不是一回事，以前要讓機(jī)器人聽(tīng)懂人話，得裝個(gè)專門(mén)的語(yǔ)言交互模塊；要讓它能避開(kāi)障礙從客廳走到陽(yáng)臺(tái)，又得搭一套任務(wù)規(guī)劃模塊；要想……還得……

于是不同模塊在機(jī)器人身上拼湊使用苦開(kāi)發(fā)者久矣。

但現(xiàn)在，字節(jié)Seed推出了Robix視覺(jué)——語(yǔ)言單模型，把三件事全包了，也不用搞多模塊拼接那套了。

所以，這是怎么做到的呢？

核心采用思維鏈推理和三階段訓(xùn)練策略

Robix是一款專門(mén)給機(jī)器人用的模型。核心想法是讓一個(gè)模型同時(shí)搞定三件事：

琢磨怎么干活（推理）安排干活步驟（任務(wù)規(guī)劃）跟人聊天溝通（自然語(yǔ)言交互）

首先，團(tuán)隊(duì)的思路是把機(jī)器人系統(tǒng)分為兩層，高層認(rèn)知和底層執(zhí)行，Robix就是管高層認(rèn)知的。

底層（VLA）來(lái)執(zhí)行Robix發(fā)出的命令。

而Robix本身也并不是多個(gè)模塊拼合的散裝大腦，而是一個(gè)視覺(jué)-語(yǔ)言融合的單模型，能同時(shí)處理畫(huà)面、語(yǔ)言，還能把思考過(guò)程、動(dòng)作指令、人類(lèi)回復(fù)整合在一個(gè)邏輯循環(huán)里，避免模塊間溝通卡頓。

Robix核心采用思維鏈推理和三階段訓(xùn)練策略。

在推理與決策方面，采用思維鏈，根據(jù)輸入信息進(jìn)行深思熟慮的推理。

在推理過(guò)程中，它會(huì)考慮當(dāng)前場(chǎng)景中的物體、空間關(guān)系、任務(wù)要求等因素，預(yù)測(cè)下一步的思考方向、行動(dòng)方案以及可選的語(yǔ)言回復(fù)。

這個(gè)過(guò)程是一個(gè)迭代的決策過(guò)程，每一步?jīng)Q策都基于當(dāng)前的觀察和之前的交互歷史。

再來(lái)說(shuō)說(shuō)Robix是怎么訓(xùn)練的。

三階段是分為持續(xù)預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。

在持續(xù)預(yù)訓(xùn)練階段，用大量機(jī)器人相關(guān)的數(shù)據(jù)，教它看懂3D空間、把語(yǔ)言和畫(huà)面對(duì)應(yīng)上，學(xué)會(huì)能判斷任務(wù)進(jìn)度的能力。

在監(jiān)督微調(diào)階段，模擬收拾餐桌、超市購(gòu)物這些真實(shí)場(chǎng)景，教它處理各種指令、按邏輯一步步想問(wèn)題，同時(shí)讓它學(xué)會(huì)跟人簡(jiǎn)單對(duì)話，做到能聽(tīng)懂、會(huì)規(guī)劃、能聊天。

在強(qiáng)化學(xué)習(xí)階段，用專門(mén)算法糾正“想的和做的不一樣”的問(wèn)題，通過(guò)“做對(duì)給獎(jiǎng)勵(lì)、做錯(cuò)給提醒”的方式，讓它在長(zhǎng)時(shí)間任務(wù)里決策更穩(wěn)、動(dòng)作更準(zhǔn)。

至于效果，團(tuán)隊(duì)給出了一些測(cè)試數(shù)據(jù)。

在基礎(chǔ)能力測(cè)試上，Robix的兩個(gè)版本（7B和32B）在8個(gè)空間理解任務(wù)中有7個(gè)比Qwen2.5-VL 表現(xiàn)好，平均準(zhǔn)確率更高；

并且在多數(shù)基準(zhǔn)測(cè)試中超越了閉源的GPT-4o、Gemini 2.5 Pro等。

離線評(píng)估中，Robix-32B-RL在所有評(píng)估集上排名第一。

在模擬真實(shí)環(huán)境的交互測(cè)試，使用UMI設(shè)備在線評(píng)估，Robix-32B在5個(gè)任務(wù)中的3個(gè)超越Gemini 2.5 Pro，且平均任務(wù)進(jìn)度略高，且大幅超越Qwen2.5-VL-32B。

而使用GR-3進(jìn)行在線評(píng)估時(shí)，在自動(dòng)化真實(shí)機(jī)器人評(píng)估中，Robix-32B的平均任務(wù)進(jìn)度達(dá)到92.5%，分別比Gemini 2.5 Pro和GPT-4o高出4.3和28.1個(gè)百分點(diǎn)。

看來(lái)，機(jī)器人模型以后拼的可能就不是模塊數(shù)量而是單一模型的綜合能力了。

One More Thing

值得關(guān)注的是，Robix項(xiàng)目的負(fù)責(zé)人，正是字節(jié)AI實(shí)驗(yàn)室的負(fù)責(zé)人李航博士，更早之前，他曾擔(dān)任華為諾亞方舟實(shí)驗(yàn)室主任和首席科學(xué)家。

△圖源：李航微博

他于2017年加入字節(jié)，后帶領(lǐng)團(tuán)隊(duì)開(kāi)展字節(jié)的機(jī)器人項(xiàng)目。

在今年6月，有知情人透露李航已經(jīng)退休，但字節(jié)相關(guān)負(fù)責(zé)人則馬上表示他還將以返聘顧問(wèn)的形式進(jìn)行工作，且工作范圍不變。

另外，李航老師在2022年出版的《機(jī)器學(xué)習(xí)方法》，據(jù)說(shuō)從2018年開(kāi)始就在構(gòu)思與寫(xiě)作……

△圖源：李航微博

現(xiàn)在還新增了深度學(xué)習(xí)內(nèi)容，目前新版已經(jīng)上市，如果想深入學(xué)習(xí)機(jī)器學(xué)習(xí)的朋友，也可以去追書(shū)哦～

技術(shù)報(bào)告：https://robix-seed.github.io/robix/論文地址：http://arxiv.org/abs/2509.01106

贊(8413)

未經(jīng)允許不得轉(zhuǎn)載：>慧業(yè)文人網(wǎng)»字節(jié)發(fā)了個(gè)機(jī)器人全能大模型，帶隊(duì)人李航

国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线