国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线

  • 字節(jié)多模態(tài)Agent又進(jìn)化!多項性能超OpenAI,玩游戲趕上人類水平

      發(fā)布時間:2025-09-10 05:26:59   作者:玩站小弟   我要評論
    導(dǎo)讀:何小鵬表示,和大眾汽車合作帶來的“隱性價值”對長期發(fā)展。

    智東西編譯 程茜編輯 云鵬

    智東西9月5日消息,9月4日,字節(jié)Seed發(fā)布了原生GUI智能體UI-TARS-2,其可以自主操作電腦、手機(jī)完成搜索、創(chuàng)建網(wǎng)頁、搜集新聞、創(chuàng)建查詢工具、玩小游戲等諸多任務(wù),相關(guān)論文在9月2日發(fā)表于arXiv預(yù)印本平臺。

    在GUI基準(zhǔn)測試中,UI-TARS-2多項測試中超過了OpenAI和Claude Agent,同時其玩15款小游戲的水平已經(jīng)達(dá)到人類水平的60%。

    字節(jié)跳動放出的Demo中,UI-TARS-2一口子完成了搜索字節(jié)跳動Seed 1.6新聞并部署網(wǎng)頁的任務(wù)。這一提示詞是“搜索關(guān)于字節(jié)跳動Seed1.6模型的新聞,然后以現(xiàn)代風(fēng)格編寫一個網(wǎng)頁并部署”。

    UI-TARS-2會先分解這一需求,包括搜索模型相關(guān)新聞、便攜現(xiàn)代風(fēng)格網(wǎng)頁、部署網(wǎng)頁三個任務(wù)。首先其通過LinkReader搜索了新聞,了解模型的核心特征,然后為網(wǎng)頁創(chuàng)建項目目錄、選擇合適的設(shè)計方法、規(guī)劃網(wǎng)頁結(jié)構(gòu),創(chuàng)建成功后還會自主檢查各項功能是否可以運行。

    在技術(shù)報告中,研究人員提到針對GUI智能體在數(shù)據(jù)可擴(kuò)展性、多輪強(qiáng)化學(xué)習(xí)(RL)、僅GUI操作的局限性以及環(huán)境穩(wěn)定性方面的挑戰(zhàn),其提出了系統(tǒng)化訓(xùn)練方法:包含用于可擴(kuò)展數(shù)據(jù)生成的數(shù)據(jù)飛輪、穩(wěn)定的多輪RL框架、集成文件系統(tǒng)和終端的混合GUI環(huán)境、用于大規(guī)模部署的統(tǒng)一沙盒平臺。

    論文地址:https://arxiv.org/abs/2509.02544

    Demo地址:https://seed-tars.com/showcase/ui-tars-2/

    一、拆解需求、使用搜索、創(chuàng)建網(wǎng)頁,都能一氣呵成

    字節(jié)放出的幾個Demo中,包含了UI-TARS-2創(chuàng)建重量單位轉(zhuǎn)換查詢工具、創(chuàng)建字符計數(shù)工具、為音樂老師創(chuàng)建演示網(wǎng)頁、比較數(shù)字大小等任務(wù)。

    首先是實現(xiàn)重量單位轉(zhuǎn)換查詢。

    提示詞:編寫一個能夠?qū)⒅亓繌囊环N單位轉(zhuǎn)換為另一種單位的函數(shù)。若原始單位是千克、目標(biāo)單位是克,且待轉(zhuǎn)換的數(shù)值為瑪?shù)贍柕隆と嵋∕athilde Seigner)獲得凱撒獎(César Award)提名的次數(shù)加1,那么最終結(jié)果會是多少?

    同樣,UI-TARS-2會先分解需求,找到瑪?shù)贍柕隆と嵋@得凱撒獎提名的次數(shù),其通過多渠道驗證確認(rèn)有3次,然后開始創(chuàng)建包含用于轉(zhuǎn)換重量單位函數(shù)的Python文件。

    其次是Hugging Face數(shù)據(jù)集字符字?jǐn)?shù)。

    提示詞:請在Hugging Face上搜索熱門數(shù)據(jù)集,下載排名第一的數(shù)據(jù)集,并計算整個數(shù)據(jù)集中的字符總數(shù)。

    拆解完任務(wù)后,UI-TARS-2會打開谷歌瀏覽器,然后搜索查找熱門數(shù)據(jù)集。

    第三個提示詞是“我是一名高中音樂理論教師,正在準(zhǔn)備一門關(guān)于基礎(chǔ)音樂理論的課程,用于解釋音樂名稱、音階名稱、大調(diào)音階、八度分布和物理頻率等知識。請幫助我收集足夠的信息,設(shè)計出充實且權(quán)威的課程內(nèi)容,并配上演示動畫,最后將它們輸出為網(wǎng)頁”。

    UI-TARS-2會使用搜索工具查找這些需要解釋的知識,然后為網(wǎng)頁規(guī)劃目錄、創(chuàng)建。

    第四個是使用Jupyter比較數(shù)字。

    提示詞:使用Jupyter計算9.11和9.9哪個更大?

    拆解任務(wù)后,UI-TARS-2會創(chuàng)建用于比較兩個數(shù)字的Python腳本,然后使用Jupyter來運行它,最后給出了9.9比9.11大的正確答案。

    二、玩游戲水平達(dá)到人類60%,多項測試超OpenAI、Claude

    實證評估表明,UI-TARS-2相較于其上一代智能體UI-TARS-1.5,在基于GUI的交互和游戲環(huán)境中均表現(xiàn)出色。

    在GUI基準(zhǔn)測試中,該模型在真實網(wǎng)站上進(jìn)行通用Web智能體的在線推理與評估測試集Online-Mind2Web上達(dá)到88.2分,在真實計算機(jī)環(huán)境中對多模態(tài)智能體進(jìn)行開放式任務(wù)評測的可擴(kuò)展基準(zhǔn)平臺OSWorld上達(dá)到47.5分,在面向Windows的可復(fù)現(xiàn)、可擴(kuò)展的多模態(tài)計算機(jī)智能體基準(zhǔn)平臺WindowsAgentArena上達(dá)到50.6分,在面向移動設(shè)備的可擴(kuò)展、可復(fù)現(xiàn)的自主智能體評測基準(zhǔn)AndroidWorld上達(dá)到73.3分,并在多項測試中超越了Claude和OpenAI Agent等。

    在游戲環(huán)境中,UI-TARS-2在15款游戲套件中的平均歸一化得分為59.8分,約相當(dāng)于人類水平的60%,分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍。

    在開源游戲基準(zhǔn)LMGame-Bench上,UI-TARS-2展現(xiàn)了其在長時程游戲推理方面的魯棒性。

    此外,研究人員通過GUI-SDK擴(kuò)展了智能體功能,使其能夠與終端和外部工具等系統(tǒng)級資源集成。

    通過這一擴(kuò)展,UI-TARS-2在長時程信息搜索基準(zhǔn)測試中表現(xiàn)出色,并在軟件工程任務(wù)Terminal Bench上達(dá)到45.3分。

    這些結(jié)果表明,研究人員為GUI Agent開發(fā)的訓(xùn)練方法,包括多輪強(qiáng)化學(xué)習(xí)優(yōu)化和可擴(kuò)展的rollout基礎(chǔ)設(shè)施,能夠有效地遷移到其他交互領(lǐng)域,從而擴(kuò)展Agent的適用性。

    三、針對GUI智能體痛點,提出四大支柱系統(tǒng)方法論

    GUI智能體的傳統(tǒng)方法通常采用模塊化管道,分別設(shè)計感知、規(guī)劃、記憶和行動等組件,但其嚴(yán)重依賴專家啟發(fā)式方法和任務(wù)特定規(guī)則,導(dǎo)致系統(tǒng)脆弱且難以擴(kuò)展。

    在此基礎(chǔ)上,字節(jié)Seed團(tuán)隊提出了一種基于四大支柱的系統(tǒng)方法論:

    首先,為緩解數(shù)據(jù)稀缺問題,研究人員設(shè)計了一個可擴(kuò)展的數(shù)據(jù)飛輪,通過持續(xù)預(yù)訓(xùn)練、監(jiān)督微調(diào)、拒絕采樣和多輪強(qiáng)化學(xué)習(xí)協(xié)同進(jìn)化模型及其訓(xùn)練語料庫。該框架提供持續(xù)流入的多樣化、高質(zhì)量軌跡,并確保模型和數(shù)據(jù)在自我強(qiáng)化的循環(huán)中迭代改進(jìn)。

    其次,為克服可擴(kuò)展多輪強(qiáng)化學(xué)習(xí)的困難,研究人員設(shè)計了一個訓(xùn)練框架,在長時程環(huán)境下穩(wěn)定優(yōu)化,這包括具有狀態(tài)環(huán)境的狀態(tài)異步展開以保留上下文、流式更新以避免長尾軌跡造成的瓶頸,以及增強(qiáng)型近端策略優(yōu)化,結(jié)合獎勵塑形、自適應(yīng)優(yōu)勢估計和值預(yù)訓(xùn)練。

    第三,為了超越純GUI交互的限制,研究人員構(gòu)建了一個以GUI為中心的混合環(huán)境,通過增加屏幕操作與文件系統(tǒng)、終端和其他外部工具等互補資源的訪問,使智能體能夠解決更廣泛的實際工作流程。

    第四,為了支持大規(guī)模訓(xùn)練和評估,研究人員建立了一個統(tǒng)一的沙盒平臺,從用于GUI交互的云虛擬機(jī)到基于瀏覽器的游戲沙盒能夠協(xié)調(diào)異構(gòu)環(huán)境,使其在一致的API下運行。該平臺經(jīng)過設(shè)計以確??芍貜?fù)性、穩(wěn)定性和高吞吐量,使其能夠可靠地運行數(shù)百萬次交互式部署。

    結(jié)語:UI-TARS-2實現(xiàn)多場景均衡性能

    UI-TARS-2通過結(jié)合多輪強(qiáng)化學(xué)習(xí)、監(jiān)督微調(diào)、拒絕采樣和持續(xù)預(yù)訓(xùn)練的迭代流程進(jìn)行訓(xùn)練,從而實現(xiàn)在異構(gòu)領(lǐng)域持續(xù)改進(jìn)。研究人員在論文中提到,他們的實驗表明,雖然領(lǐng)域特定的變體可以在單個基準(zhǔn)測試中取得峰值分?jǐn)?shù),但UI-TARS-2在單一統(tǒng)一系統(tǒng)中實現(xiàn)了跨GUI、瀏覽器、移動和游戲任務(wù)的平衡且具有競爭力的性能。

    除了基準(zhǔn)測試結(jié)果外,他們還針對訓(xùn)練動態(tài)和交互擴(kuò)展進(jìn)行了分析,為多輪智能體強(qiáng)化學(xué)習(xí)提供思路,證明模型在多樣化環(huán)境中進(jìn)行訓(xùn)練能夠促進(jìn)參數(shù)共享和能力遷移,從而產(chǎn)生融合圖形交互與更復(fù)雜推理和決策能力的混合技能。他們認(rèn)為,UI-TARS-2代表了對更強(qiáng)大、可靠和多功能計算機(jī)使用Agent的邁進(jìn)。