智東西作者 李水青編輯 心緣
智東西9月4日?qǐng)?bào)道,9月3日,快手開源最新多模態(tài)大模型Keye-VL-1.5。該模型擁有80億個(gè)參數(shù),支持128ktokens擴(kuò)展上下文,在視頻理解、圖像理解和推理方面能力出色。
▲Keye-VL-1.5開源地址截圖
在Video-MME、Video-MMMU、TempCompass等一系列權(quán)威的公共視頻基準(zhǔn)測試中,Keye-VL-1.5在同等規(guī)模模型中取得了SOTA(最佳表現(xiàn)),趕超阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等規(guī)模優(yōu)秀模型;在WeMath、MathVerse等需要復(fù)雜邏輯推理和數(shù)學(xué)問題解決的評(píng)估集上,Keye-VL-1.5-8B也展現(xiàn)出較強(qiáng)性能。
▲Keye-VL-1.5測評(píng)情況一覽
據(jù)悉,相比于只會(huì)識(shí)別標(biāo)簽和片段的傳統(tǒng)模型,Keye-VL-1.5能捕捉視頻中的細(xì)節(jié)與時(shí)間邏輯,實(shí)現(xiàn)對(duì)長視頻與復(fù)雜語義的深度理解。這一模型可用于視頻推薦、創(chuàng)作、互動(dòng)以及內(nèi)容審核和商業(yè)化全鏈條。
這意味著,從自動(dòng)生成吸睛標(biāo)題,到智能剪輯精彩片段,再到實(shí)時(shí)互動(dòng)解說,Keye-VL-1.5或許能為短視頻生態(tài)注入了前所未有的可能性。
智東西對(duì)這一模型進(jìn)行一手體驗(yàn)后發(fā)現(xiàn),Keye-VL-1.5在圖像理解和邏輯推理上效果較好,且速度較快,10秒左右可完成針對(duì)數(shù)分鐘視頻內(nèi)容的處理。值得一提的是,在近日廣受關(guān)注的AI生成內(nèi)容的識(shí)別上,Keye-VL-1.5表現(xiàn)出了較高的準(zhǔn)確率。
同時(shí),在體驗(yàn)中,Keye-VL-1.5暫時(shí)無法完成音頻理解、圖像/視頻創(chuàng)作等任務(wù),且在數(shù)學(xué)及推理、語言生成的精妙性方面仍有進(jìn)步空間。
▲Keye-VL-1.5技術(shù)報(bào)告截圖
技術(shù)報(bào)告地址:https://arxiv.org/pdf/2509.01563Hugging Face地址:https://huggingface.co/Kwai-Keye/Keye-VL-1_5-8B體驗(yàn)地址:https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
一、能看懂視頻,懂邏輯推理,勝任AI生成內(nèi)容識(shí)別
首先,智東西用近日廣受關(guān)注的AI生成內(nèi)容識(shí)別任務(wù)來測試Keye-VL-1.5。隨著《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》,AI生成合成內(nèi)容的審核管理工作量隨之變大。
當(dāng)智東西上傳了一個(gè)實(shí)拍的熊貓視頻,輸入提示詞:“這個(gè)視頻是AI生成的嗎?”。如下圖所示,Keye-VL-1.5采用非思考模型,在幾秒見即給出“不是”的正確答案。
我們?cè)黾与y度,上傳一個(gè)男士拿著貓罐頭的視頻,輸入提示詞:“這個(gè)視頻是AI生成的嗎?有沒有廣告推銷?”如下圖所示,這次Keye-VL-1.5自己選擇了深度思考模式,經(jīng)過近10秒鐘的思考后,輸出了正確答案:“是,該視頻可能是AI生成的,并且有廣告推銷(貓糧)?!?/p>
接下來,我們上傳了一個(gè)荷花池的風(fēng)景視頻,要求Keye-VL-1.5“根據(jù)視頻創(chuàng)作一首七言絕句”,如下圖所示,這對(duì)Keye-VL-1.5幾乎沒有難度,生成詩句:“夏日池塘荷葉綠,粉苞初放映晴天。蜻蜓點(diǎn)水驚飛蝶,清香浮動(dòng)入詩篇。”詩句全面覆蓋了視頻中的景物,并且創(chuàng)作了了“蜻蜓點(diǎn)水驚飛蝶”全新意象,還聯(lián)想到了“清香浮動(dòng)”嗅覺感受,可見其兼具圖像理解和邏輯推理能力,但在語言生成的精妙性方面仍有進(jìn)步空間。
我們上傳了關(guān)于兩只貓相處的視頻,要求Keye-VL-1.5“對(duì)這個(gè)視頻進(jìn)行剪輯,剪去兩只貓停頓部分,保留動(dòng)態(tài)部分,7秒左右”。但Keye-VL-1.5目前無法執(zhí)行視頻剪輯和生成的動(dòng)作,而是給出了應(yīng)該刪去和保留哪些視頻幀。
當(dāng)我們上傳了一個(gè)男孩和女孩走在校園跑道上的照片,輸入提示詞:“視頻中出現(xiàn)了幾個(gè)人?他們可能多大歲數(shù),是什么關(guān)系?”,Keye-VL-1.5很快給出準(zhǔn)確答案:“2個(gè)人,年齡約16-22歲,可能是情侶、好友或同學(xué)關(guān)系?!笨梢奒eye-VL-1.5在邏輯推理上有一定的能力。
我們上傳了一個(gè)關(guān)于女性宣言合集視頻,問Keye-VL-1.5:“視頻中出現(xiàn)了幾個(gè)女孩?她們?cè)谡務(wù)撌裁丛掝},有什么意義?”這次Keye-VL-1.5誤把前兩個(gè)黑色頭發(fā)女孩識(shí)別為了同一個(gè),且沒有識(shí)別出音頻,所以無法總結(jié)出話題主題。從思考過程可知,Keye-VL-1.5差一點(diǎn)成功確認(rèn)視頻中出現(xiàn)了三個(gè)女孩,但最終卻因誤以為第一、二個(gè)女孩為同一人,而沒有得到正確答案。
根據(jù)Keye-VL-1.5自己的官方回復(fù):“目前,我作為基于文本的AI模型,無法直接處理視頻中的聲音內(nèi)容。我的能力主要集中在文本分析、圖像描述和邏輯推理上?!?/p>
二、拿下同規(guī)模通用視覺-語言測試SOTA,能理解視頻、看懂邏輯
看完實(shí)測,再來看看Keye-VL-1.5的基準(zhǔn)測試情況。通過在公開基準(zhǔn)上的評(píng)估和內(nèi)部人工評(píng)估,Keye-VL-1.5相較于現(xiàn)有模型表現(xiàn)出顯著的改進(jìn),尤其在視頻理解任務(wù)中表現(xiàn)出色,同時(shí)在通用視覺-語言任務(wù)上也保持了較好性能。
在通用視覺-語言任務(wù)上,Keye-VL-1.5在大多數(shù)基準(zhǔn)測試中展現(xiàn)出具有競爭力的性能,常常取得最先進(jìn)(SOTA)或接近最先進(jìn)的結(jié)果,總體上優(yōu)于其他模型。
在大規(guī)模通用基準(zhǔn)測試OpenCompass、MMMU-val、AI2D等測試中,Keye-VL-1.5分別獲得79.5%、71.4%和86.7%的分?jǐn)?shù),超過了所有其他模型。
在MMBench和MMStar上,Keye-VL-1.5也取得了最佳性能。在數(shù)學(xué)推理任務(wù)中,Keye-VL-1.5顯著優(yōu)于Qwen2.5-VL 8B和InternVL3-8B,其結(jié)果與小米的MiMo-VL 7B-RL相當(dāng)。
在以視頻為中心的場景中,對(duì)視頻內(nèi)容的準(zhǔn)確理解是Keye-VL-1.5的核心優(yōu)勢。在公開的視頻基準(zhǔn)測試中,Keye-VL-1.5顯著優(yōu)于其他模型,尤其是在Video-MMMU上,絕對(duì)提升了6.5%。
▲Keye-VL-1.5(思考模式)與Keye-VL-Preview及其他模型在多視覺-語言基準(zhǔn)測試中的比較
由于公開基準(zhǔn)任務(wù)覆蓋有限、存在過于簡單的問題形式、潛在數(shù)據(jù)污染風(fēng)險(xiǎn)等問題,快手還對(duì)Keye-VL-1.5進(jìn)行了內(nèi)部基準(zhǔn)測試。
如下表所示,Keye-VL-1.5-8B以3.53的整體綜合得分大幅領(lǐng)先,較Keye-VL-Preview顯著提升了0.51。該模型在提供準(zhǔn)確且全面的響應(yīng)方面能力的增強(qiáng),且響應(yīng)與用戶查詢的匹配度有所改善。與MiMoVL-7B-RL-2508對(duì)比,Keye-VL-1.5-8B在綜合性能上確立了0.13的優(yōu)勢,且在準(zhǔn)確性方面表現(xiàn)尤為突出(+0.19)。雖然快手的模型在事實(shí)準(zhǔn)確性上更勝一籌,但在語言生成的精妙性方面仍面臨挑戰(zhàn)。
▲Keye-VL-1.5-8B以3.53的整體綜合得分大幅領(lǐng)先
詳細(xì)的能力分析揭示了特定領(lǐng)域的優(yōu)勢和優(yōu)化重點(diǎn):下表中的細(xì)粒度評(píng)估顯示,Keye-VL-1.5-8B在推理能力(3.81)、時(shí)間信息理解(3.36)和穩(wěn)健性(4.29)方面具有顯著優(yōu)勢;在視覺元素識(shí)別(3.49)和創(chuàng)造能力(3.66)上與MiMoVL-7B-RL-2508相當(dāng)。
▲Keye-VL-1.5-8B詳細(xì)的能力分析
三、三項(xiàng)關(guān)鍵創(chuàng)新,破解視頻理解挑戰(zhàn)
近年來,多模態(tài)大語言模型加速發(fā)展,然而由于視頻具有動(dòng)態(tài)性和信息密集性的特點(diǎn),視頻理解仍然是一個(gè)具有挑戰(zhàn)性的領(lǐng)域。
現(xiàn)有模型在處理視頻內(nèi)容時(shí),難以在空間分辨率和時(shí)間覆蓋范圍之間取得平衡?,F(xiàn)有方法通常在固定分辨率約束下采用均勻幀采樣,這在內(nèi)容理解需要細(xì)粒度視覺細(xì)節(jié)和時(shí)間一致性時(shí),會(huì)導(dǎo)致性能欠佳。
為了解決這些局限性,快手推出了擁有80億參數(shù)的多模態(tài)基礎(chǔ)模型Keye-VL-1.5,它通過三項(xiàng)關(guān)鍵創(chuàng)新解決了視頻理解中的基本挑戰(zhàn):
1、高效多模態(tài)處理的架構(gòu)創(chuàng)新:慢-快視頻編碼策略,解決時(shí)空權(quán)衡問題
首先,快手引入了一種新穎的慢-快視頻編碼策略,該策略基于幀間相似度動(dòng)態(tài)分配計(jì)算資源,對(duì)具有顯著視覺變化的關(guān)鍵幀采用更高分辨率處理(慢速路徑),而對(duì)相對(duì)靜態(tài)的幀則以更低分辨率增加時(shí)間覆蓋范圍(快速路徑)。
這種由基于補(bǔ)丁的相似度函數(shù)引導(dǎo)的自適應(yīng)方法,有效地解決了空間細(xì)節(jié)和時(shí)間廣度之間的權(quán)衡問題。
▲Keye-VL-1.5的慢-快視頻編碼策略演示
2、漸進(jìn)式預(yù)訓(xùn)練策略:四個(gè)精心設(shè)計(jì)階段,確保訓(xùn)練穩(wěn)定性
其次,快手實(shí)施了一種漸進(jìn)式的四階段預(yù)訓(xùn)練方法,逐步構(gòu)建多模態(tài)能力。
從跨模態(tài)對(duì)齊和多任務(wù)學(xué)習(xí)開始,在退火階段,我們系統(tǒng)地將模型的上下文長度從8K擴(kuò)展到128K tokens,使其能夠處理更長的視頻和更復(fù)雜的視覺內(nèi)容。
這種漸進(jìn)式方法確保了訓(xùn)練的穩(wěn)定性,同時(shí)最大限度地利用擴(kuò)展的上下文窗口來增強(qiáng)視頻理解能力。最后的模型融合階段將使用不同數(shù)據(jù)混合訓(xùn)練的模型結(jié)合起來,以提高穩(wěn)健性并減少偏差。
▲Keye-VL-1.5的四層漸進(jìn)式預(yù)訓(xùn)練流程
3、全面的訓(xùn)練后方法:三個(gè)組件,推理增強(qiáng)和人類偏好對(duì)齊
第三,他們開發(fā)了一個(gè)全面的訓(xùn)練后pipeline,專注于推理增強(qiáng)和人類偏好對(duì)齊。他們開發(fā)了一個(gè)包含三個(gè)關(guān)鍵組件的綜合流程。
首先,他們?cè)O(shè)計(jì)了一個(gè)五步思維鏈推理數(shù)據(jù)構(gòu)建流程,以生成高質(zhì)量的冷啟動(dòng)數(shù)據(jù);其次,采用GSPO算法進(jìn)行可驗(yàn)證的基于獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)訓(xùn)練。這包括漸進(jìn)式提示采樣,以處理困難樣本;最后,進(jìn)行對(duì)齊強(qiáng)化學(xué)習(xí)訓(xùn)練,以增強(qiáng)指令遵循、響應(yīng)格式和偏好對(duì)齊能力。
這種系統(tǒng)化方法確保Keye-VL-1.5在基準(zhǔn)測試中取得優(yōu)異性能,同時(shí)提供符合人類期望和偏好的響應(yīng)。
四、基于谷歌、阿里開源模型訓(xùn)練,克服基礎(chǔ)設(shè)施三大挑戰(zhàn)
快手Keye-VL-1.5模型架構(gòu)基于Qwen3-8B語言模型,遵循經(jīng)典的多模態(tài)大語言模型架構(gòu),包含三個(gè)關(guān)鍵組件:視覺Transformer(ViT)、多層感知機(jī)(MLP)投影器和語言解碼器。
▲Keye-VL-1.5的模型架構(gòu)
在ViT組件方面,快手采用谷歌開源的SigLIP-400M-384-14作為視覺編碼器來提取視覺信息。在大語言模型(LLM)組件方面,他們使用阿里的Qwen3-8B作為語言解碼器,以提供通用的世界語義知識(shí)理解能力。對(duì)于投影器,他們隨機(jī)初始化其參數(shù),并在第一階段對(duì)其進(jìn)行充分的預(yù)訓(xùn)練。
在模型預(yù)訓(xùn)練階段,快手團(tuán)隊(duì)在數(shù)據(jù)構(gòu)建流程中,組建了一個(gè)多樣化、高質(zhì)量的語料庫,包含超過1萬億個(gè)標(biāo)記,用于支持模型訓(xùn)練,其來源既有公共數(shù)據(jù)集,也有內(nèi)部專有數(shù)據(jù)。
訓(xùn)練數(shù)據(jù)涵蓋六大主要類別:圖像描述、光學(xué)字符識(shí)別與視覺問答、目標(biāo)定位與計(jì)數(shù)、交錯(cuò)數(shù)據(jù)、視頻理解以及純文本數(shù)據(jù)。團(tuán)隊(duì)針對(duì)每個(gè)數(shù)據(jù)類別的特點(diǎn)設(shè)計(jì)了定制化的過濾機(jī)制,以確保整體數(shù)據(jù)質(zhì)量。
為了高效訓(xùn)練多模態(tài)大語言模型,快手團(tuán)隊(duì)進(jìn)行了深入的基礎(chǔ)設(shè)施優(yōu)化,以解決三大主要挑戰(zhàn):架構(gòu)異構(gòu)性、負(fù)載不均衡和輸入/輸出瓶頸。
1、異構(gòu)混合并行策略:對(duì)于計(jì)算模式相對(duì)固定的ViT組件,僅采用數(shù)據(jù)并行(DP)以最大化吞吐量;而對(duì)于參數(shù)和內(nèi)存消耗極大的LLM,則采用結(jié)合流水線并行(PP)、張量并行(TP)和數(shù)據(jù)并行(DP)的混合并行策略。這種精細(xì)化策略是實(shí)現(xiàn)Keye-VL-1.5的128K超長序列訓(xùn)練的關(guān)鍵技術(shù)前提。
2、動(dòng)態(tài)負(fù)載均衡機(jī)制:預(yù)先估計(jì)每個(gè)樣本的時(shí)間復(fù)雜度,然后使用貪心算法在不同GPU之間分配樣本,從而平衡所有GPU的總步驟時(shí)長,提高整體硬件利用率。
3、靈活且可擴(kuò)展的數(shù)據(jù)加載器:設(shè)計(jì)了一種靈活且可擴(kuò)展的數(shù)據(jù)加載器,它能深度感知并行訓(xùn)練的拓?fù)浣Y(jié)構(gòu);實(shí)施了一種I/O服務(wù)器架構(gòu),將視頻解碼等CPU密集型任務(wù)從訓(xùn)練節(jié)點(diǎn)卸載出去,有效解決了復(fù)雜媒體處理帶來的CPU瓶頸問題;實(shí)現(xiàn)了實(shí)例級(jí)的完美恢復(fù)機(jī)制,確保任務(wù)在中斷后能夠從最后一個(gè)成功處理的樣本無縫恢復(fù),顯著提高了大規(guī)模訓(xùn)練的穩(wěn)定性和效率。
結(jié)語:AI加速讀懂視頻,或重塑視頻行業(yè)交互與商業(yè)化
在本研究中,快手提出的Keye-VL-1.5顯著提升了視頻理解和視覺-語言任務(wù)的性能。該模型高效地平衡了時(shí)間覆蓋范圍和空間分辨率,且能夠處理更長的視頻和復(fù)雜的視覺內(nèi)容,且提升了指令遵循能力和推理能力。
當(dāng)AI能夠真正理解視頻的細(xì)節(jié)與語義,視頻行業(yè)的推薦、創(chuàng)作、互動(dòng)和商業(yè)化都將被重塑。Keye-VL-1.5仍處于初步階段,在音頻理解、多模態(tài)內(nèi)容生成、邏輯推理等方面仍存在一些不足。但基于短視頻平臺(tái)的海量數(shù)據(jù)儲(chǔ)備,該模型有望在之后快速迭代。