国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线

  • 慧業(yè)文人網(wǎng)慧業(yè)文人網(wǎng)

    字節(jié)發(fā)了個(gè)機(jī)器人全能大模型,帶隊(duì)人李航

    聞樂(lè) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

    機(jī)器人終于不用散裝大腦了!

    字節(jié)Seed一個(gè)模型就能搞定機(jī)器人推理、任務(wù)規(guī)劃和自然語(yǔ)言交互。

    經(jīng)常做機(jī)器人的朋友都知道,以前想讓機(jī)器人干活,得先解決一個(gè)煩人的問(wèn)題——

    模塊之間的信息代溝。

    能聽(tīng)懂指令和能完成指令可完全不是一回事,以前要讓機(jī)器人聽(tīng)懂人話,得裝個(gè)專門(mén)的語(yǔ)言交互模塊;要讓它能避開(kāi)障礙從客廳走到陽(yáng)臺(tái),又得搭一套任務(wù)規(guī)劃模塊;要想……還得……

    于是不同模塊在機(jī)器人身上拼湊使用苦開(kāi)發(fā)者久矣。

    但現(xiàn)在,字節(jié)Seed推出了Robix視覺(jué)——語(yǔ)言單模型,把三件事全包了,也不用搞多模塊拼接那套了。

    所以,這是怎么做到的呢?

    核心采用思維鏈推理和三階段訓(xùn)練策略

    Robix是一款專門(mén)給機(jī)器人用的模型。核心想法是讓一個(gè)模型同時(shí)搞定三件事:

    琢磨怎么干活(推理)安排干活步驟(任務(wù)規(guī)劃)跟人聊天溝通(自然語(yǔ)言交互)

    首先,團(tuán)隊(duì)的思路是把機(jī)器人系統(tǒng)分為兩層,高層認(rèn)知和底層執(zhí)行,Robix就是管高層認(rèn)知的。

    底層(VLA)來(lái)執(zhí)行Robix發(fā)出的命令。

    而Robix本身也并不是多個(gè)模塊拼合的散裝大腦,而是一個(gè)視覺(jué)-語(yǔ)言融合的單模型,能同時(shí)處理畫(huà)面、語(yǔ)言,還能把思考過(guò)程、動(dòng)作指令、人類(lèi)回復(fù)整合在一個(gè)邏輯循環(huán)里,避免模塊間溝通卡頓。

    Robix核心采用思維鏈推理和三階段訓(xùn)練策略。

    在推理與決策方面,采用思維鏈,根據(jù)輸入信息進(jìn)行深思熟慮的推理。

    在推理過(guò)程中,它會(huì)考慮當(dāng)前場(chǎng)景中的物體、空間關(guān)系、任務(wù)要求等因素,預(yù)測(cè)下一步的思考方向、行動(dòng)方案以及可選的語(yǔ)言回復(fù)。

    這個(gè)過(guò)程是一個(gè)迭代的決策過(guò)程,每一步?jīng)Q策都基于當(dāng)前的觀察和之前的交互歷史。

    再來(lái)說(shuō)說(shuō)Robix是怎么訓(xùn)練的。

    三階段是分為持續(xù)預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。

    在持續(xù)預(yù)訓(xùn)練階段,用大量機(jī)器人相關(guān)的數(shù)據(jù),教它看懂3D空間、把語(yǔ)言和畫(huà)面對(duì)應(yīng)上,學(xué)會(huì)能判斷任務(wù)進(jìn)度的能力。

    在監(jiān)督微調(diào)階段,模擬收拾餐桌、超市購(gòu)物這些真實(shí)場(chǎng)景,教它處理各種指令、按邏輯一步步想問(wèn)題,同時(shí)讓它學(xué)會(huì)跟人簡(jiǎn)單對(duì)話,做到能聽(tīng)懂、會(huì)規(guī)劃、能聊天。

    在強(qiáng)化學(xué)習(xí)階段,用專門(mén)算法糾正“想的和做的不一樣”的問(wèn)題,通過(guò)“做對(duì)給獎(jiǎng)勵(lì)、做錯(cuò)給提醒”的方式,讓它在長(zhǎng)時(shí)間任務(wù)里決策更穩(wěn)、動(dòng)作更準(zhǔn)。

    至于效果,團(tuán)隊(duì)給出了一些測(cè)試數(shù)據(jù)。

    在基礎(chǔ)能力測(cè)試上,Robix的兩個(gè)版本(7B和32B)在8個(gè)空間理解任務(wù)中有7個(gè)比Qwen2.5-VL 表現(xiàn)好,平均準(zhǔn)確率更高;

    并且在多數(shù)基準(zhǔn)測(cè)試中超越了閉源的GPT-4o、Gemini 2.5 Pro等。

    離線評(píng)估中,Robix-32B-RL在所有評(píng)估集上排名第一。

    在模擬真實(shí)環(huán)境的交互測(cè)試,使用UMI設(shè)備在線評(píng)估,Robix-32B在5個(gè)任務(wù)中的3個(gè)超越Gemini 2.5 Pro,且平均任務(wù)進(jìn)度略高,且大幅超越Qwen2.5-VL-32B。

    而使用GR-3進(jìn)行在線評(píng)估時(shí),在自動(dòng)化真實(shí)機(jī)器人評(píng)估中,Robix-32B的平均任務(wù)進(jìn)度達(dá)到92.5%,分別比Gemini 2.5 Pro和GPT-4o高出4.3和28.1個(gè)百分點(diǎn)。

    看來(lái),機(jī)器人模型以后拼的可能就不是模塊數(shù)量而是單一模型的綜合能力了。

    One More Thing

    值得關(guān)注的是,Robix項(xiàng)目的負(fù)責(zé)人,正是字節(jié)AI實(shí)驗(yàn)室的負(fù)責(zé)人李航博士,更早之前,他曾擔(dān)任華為諾亞方舟實(shí)驗(yàn)室主任和首席科學(xué)家。

    △圖源:李航微博

    他于2017年加入字節(jié),后帶領(lǐng)團(tuán)隊(duì)開(kāi)展字節(jié)的機(jī)器人項(xiàng)目。

    在今年6月,有知情人透露李航已經(jīng)退休,但字節(jié)相關(guān)負(fù)責(zé)人則馬上表示他還將以返聘顧問(wèn)的形式進(jìn)行工作,且工作范圍不變。

    另外,李航老師在2022年出版的《機(jī)器學(xué)習(xí)方法》,據(jù)說(shuō)從2018年開(kāi)始就在構(gòu)思與寫(xiě)作……

    △圖源:李航微博

    現(xiàn)在還新增了深度學(xué)習(xí)內(nèi)容,目前新版已經(jīng)上市,如果想深入學(xué)習(xí)機(jī)器學(xué)習(xí)的朋友,也可以去追書(shū)哦~

    技術(shù)報(bào)告:https://robix-seed.github.io/robix/論文地址:http://arxiv.org/abs/2509.01106

    贊(8413)
    未經(jīng)允許不得轉(zhuǎn)載:>慧業(yè)文人網(wǎng)»字節(jié)發(fā)了個(gè)機(jī)器人全能大模型,帶隊(duì)人李航