国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线

 
  • AI邊刷視頻邊思考!快手最新多模態(tài)大模型開源,80億參數(shù),實測推理超快

    作者:BlackMamba 來源:哈爾濱 瀏覽: 【】 發(fā)布時間:2025-09-06評論數(shù):

    智東西作者 李水青編輯 心緣

    智東西9月4日報道,9月3日,快手開源最新多模態(tài)大模型Keye-VL-1.5。該模型擁有80億個參數(shù),支持128ktokens擴展上下文,在視頻理解、圖像理解和推理方面能力出色。

    ▲Keye-VL-1.5開源地址截圖

    在Video-MME、Video-MMMU、TempCompass等一系列權(quán)威的公共視頻基準測試中,Keye-VL-1.5在同等規(guī)模模型中取得了SOTA(最佳表現(xiàn)),趕超阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等規(guī)模優(yōu)秀模型;在WeMath、MathVerse等需要復雜邏輯推理和數(shù)學問題解決的評估集上,Keye-VL-1.5-8B也展現(xiàn)出較強性能。

    ▲Keye-VL-1.5測評情況一覽

    據(jù)悉,相比于只會識別標簽和片段的傳統(tǒng)模型,Keye-VL-1.5能捕捉視頻中的細節(jié)與時間邏輯,實現(xiàn)對長視頻與復雜語義的深度理解。這一模型可用于視頻推薦、創(chuàng)作、互動以及內(nèi)容審核和商業(yè)化全鏈條。

    這意味著,從自動生成吸睛標題,到智能剪輯精彩片段,再到實時互動解說,Keye-VL-1.5或許能為短視頻生態(tài)注入了前所未有的可能性。

    智東西對這一模型進行一手體驗后發(fā)現(xiàn),Keye-VL-1.5在圖像理解和邏輯推理上效果較好,且速度較快,10秒左右可完成針對數(shù)分鐘視頻內(nèi)容的處理。值得一提的是,在近日廣受關(guān)注的AI生成內(nèi)容的識別上,Keye-VL-1.5表現(xiàn)出了較高的準確率。

    同時,在體驗中,Keye-VL-1.5暫時無法完成音頻理解、圖像/視頻創(chuàng)作等任務(wù),且在數(shù)學及推理、語言生成的精妙性方面仍有進步空間。

    ▲Keye-VL-1.5技術(shù)報告截圖

    技術(shù)報告地址:https://arxiv.org/pdf/2509.01563Hugging Face地址:https://huggingface.co/Kwai-Keye/Keye-VL-1_5-8B體驗地址:https://huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B

    一、能看懂視頻,懂邏輯推理,勝任AI生成內(nèi)容識別

    首先,智東西用近日廣受關(guān)注的AI生成內(nèi)容識別任務(wù)來測試Keye-VL-1.5。隨著《人工智能生成合成內(nèi)容標識辦法》,AI生成合成內(nèi)容的審核管理工作量隨之變大。

    當智東西上傳了一個實拍的熊貓視頻,輸入提示詞:“這個視頻是AI生成的嗎?”。如下圖所示,Keye-VL-1.5采用非思考模型,在幾秒見即給出“不是”的正確答案。

    我們增加難度,上傳一個男士拿著貓罐頭的視頻,輸入提示詞:“這個視頻是AI生成的嗎?有沒有廣告推銷?”如下圖所示,這次Keye-VL-1.5自己選擇了深度思考模式,經(jīng)過近10秒鐘的思考后,輸出了正確答案:“是,該視頻可能是AI生成的,并且有廣告推銷(貓糧)。”

    接下來,我們上傳了一個荷花池的風景視頻,要求Keye-VL-1.5“根據(jù)視頻創(chuàng)作一首七言絕句”,如下圖所示,這對Keye-VL-1.5幾乎沒有難度,生成詩句:“夏日池塘荷葉綠,粉苞初放映晴天。蜻蜓點水驚飛蝶,清香浮動入詩篇?!痹娋淙娓采w了視頻中的景物,并且創(chuàng)作了了“蜻蜓點水驚飛蝶”全新意象,還聯(lián)想到了“清香浮動”嗅覺感受,可見其兼具圖像理解和邏輯推理能力,但在語言生成的精妙性方面仍有進步空間。

    我們上傳了關(guān)于兩只貓相處的視頻,要求Keye-VL-1.5“對這個視頻進行剪輯,剪去兩只貓停頓部分,保留動態(tài)部分,7秒左右”。但Keye-VL-1.5目前無法執(zhí)行視頻剪輯和生成的動作,而是給出了應(yīng)該刪去和保留哪些視頻幀。

    當我們上傳了一個男孩和女孩走在校園跑道上的照片,輸入提示詞:“視頻中出現(xiàn)了幾個人?他們可能多大歲數(shù),是什么關(guān)系?”,Keye-VL-1.5很快給出準確答案:“2個人,年齡約16-22歲,可能是情侶、好友或同學關(guān)系?!笨梢奒eye-VL-1.5在邏輯推理上有一定的能力。

    我們上傳了一個關(guān)于女性宣言合集視頻,問Keye-VL-1.5:“視頻中出現(xiàn)了幾個女孩?她們在談?wù)撌裁丛掝},有什么意義?”這次Keye-VL-1.5誤把前兩個黑色頭發(fā)女孩識別為了同一個,且沒有識別出音頻,所以無法總結(jié)出話題主題。從思考過程可知,Keye-VL-1.5差一點成功確認視頻中出現(xiàn)了三個女孩,但最終卻因誤以為第一、二個女孩為同一人,而沒有得到正確答案。

    根據(jù)Keye-VL-1.5自己的官方回復:“目前,我作為基于文本的AI模型,無法直接處理視頻中的聲音內(nèi)容。我的能力主要集中在文本分析、圖像描述和邏輯推理上。”

    二、拿下同規(guī)模通用視覺-語言測試SOTA,能理解視頻、看懂邏輯

    看完實測,再來看看Keye-VL-1.5的基準測試情況。通過在公開基準上的評估和內(nèi)部人工評估,Keye-VL-1.5相較于現(xiàn)有模型表現(xiàn)出顯著的改進,尤其在視頻理解任務(wù)中表現(xiàn)出色,同時在通用視覺-語言任務(wù)上也保持了較好性能。

    在通用視覺-語言任務(wù)上,Keye-VL-1.5在大多數(shù)基準測試中展現(xiàn)出具有競爭力的性能,常常取得最先進(SOTA)或接近最先進的結(jié)果,總體上優(yōu)于其他模型。

    在大規(guī)模通用基準測試OpenCompass、MMMU-val、AI2D等測試中,Keye-VL-1.5分別獲得79.5%、71.4%和86.7%的分數(shù),超過了所有其他模型。

    在MMBench和MMStar上,Keye-VL-1.5也取得了最佳性能。在數(shù)學推理任務(wù)中,Keye-VL-1.5顯著優(yōu)于Qwen2.5-VL 8B和InternVL3-8B,其結(jié)果與小米的MiMo-VL 7B-RL相當。

    在以視頻為中心的場景中,對視頻內(nèi)容的準確理解是Keye-VL-1.5的核心優(yōu)勢。在公開的視頻基準測試中,Keye-VL-1.5顯著優(yōu)于其他模型,尤其是在Video-MMMU上,絕對提升了6.5%。

    ▲Keye-VL-1.5(思考模式)與Keye-VL-Preview及其他模型在多視覺-語言基準測試中的比較

    由于公開基準任務(wù)覆蓋有限、存在過于簡單的問題形式、潛在數(shù)據(jù)污染風險等問題,快手還對Keye-VL-1.5進行了內(nèi)部基準測試。

    如下表所示,Keye-VL-1.5-8B以3.53的整體綜合得分大幅領(lǐng)先,較Keye-VL-Preview顯著提升了0.51。該模型在提供準確且全面的響應(yīng)方面能力的增強,且響應(yīng)與用戶查詢的匹配度有所改善。與MiMoVL-7B-RL-2508對比,Keye-VL-1.5-8B在綜合性能上確立了0.13的優(yōu)勢,且在準確性方面表現(xiàn)尤為突出(+0.19)。雖然快手的模型在事實準確性上更勝一籌,但在語言生成的精妙性方面仍面臨挑戰(zhàn)。

    ▲Keye-VL-1.5-8B以3.53的整體綜合得分大幅領(lǐng)先

    詳細的能力分析揭示了特定領(lǐng)域的優(yōu)勢和優(yōu)化重點:下表中的細粒度評估顯示,Keye-VL-1.5-8B在推理能力(3.81)、時間信息理解(3.36)和穩(wěn)健性(4.29)方面具有顯著優(yōu)勢;在視覺元素識別(3.49)和創(chuàng)造能力(3.66)上與MiMoVL-7B-RL-2508相當。

    ▲Keye-VL-1.5-8B詳細的能力分析

    三、三項關(guān)鍵創(chuàng)新,破解視頻理解挑戰(zhàn)

    近年來,多模態(tài)大語言模型加速發(fā)展,然而由于視頻具有動態(tài)性和信息密集性的特點,視頻理解仍然是一個具有挑戰(zhàn)性的領(lǐng)域。

    現(xiàn)有模型在處理視頻內(nèi)容時,難以在空間分辨率和時間覆蓋范圍之間取得平衡?,F(xiàn)有方法通常在固定分辨率約束下采用均勻幀采樣,這在內(nèi)容理解需要細粒度視覺細節(jié)和時間一致性時,會導致性能欠佳。

    為了解決這些局限性,快手推出了擁有80億參數(shù)的多模態(tài)基礎(chǔ)模型Keye-VL-1.5,它通過三項關(guān)鍵創(chuàng)新解決了視頻理解中的基本挑戰(zhàn):

    1、高效多模態(tài)處理的架構(gòu)創(chuàng)新:慢-快視頻編碼策略,解決時空權(quán)衡問題

    首先,快手引入了一種新穎的慢-快視頻編碼策略,該策略基于幀間相似度動態(tài)分配計算資源,對具有顯著視覺變化的關(guān)鍵幀采用更高分辨率處理(慢速路徑),而對相對靜態(tài)的幀則以更低分辨率增加時間覆蓋范圍(快速路徑)。

    這種由基于補丁的相似度函數(shù)引導的自適應(yīng)方法,有效地解決了空間細節(jié)和時間廣度之間的權(quán)衡問題。

    ▲Keye-VL-1.5的慢-快視頻編碼策略演示

    2、漸進式預訓練策略:四個精心設(shè)計階段,確保訓練穩(wěn)定性

    其次,快手實施了一種漸進式的四階段預訓練方法,逐步構(gòu)建多模態(tài)能力。

    從跨模態(tài)對齊和多任務(wù)學習開始,在退火階段,我們系統(tǒng)地將模型的上下文長度從8K擴展到128K tokens,使其能夠處理更長的視頻和更復雜的視覺內(nèi)容。

    這種漸進式方法確保了訓練的穩(wěn)定性,同時最大限度地利用擴展的上下文窗口來增強視頻理解能力。最后的模型融合階段將使用不同數(shù)據(jù)混合訓練的模型結(jié)合起來,以提高穩(wěn)健性并減少偏差。

    ▲Keye-VL-1.5的四層漸進式預訓練流程

    3、全面的訓練后方法:三個組件,推理增強和人類偏好對齊

    第三,他們開發(fā)了一個全面的訓練后pipeline,專注于推理增強和人類偏好對齊。他們開發(fā)了一個包含三個關(guān)鍵組件的綜合流程。

    首先,他們設(shè)計了一個五步思維鏈推理數(shù)據(jù)構(gòu)建流程,以生成高質(zhì)量的冷啟動數(shù)據(jù);其次,采用GSPO算法進行可驗證的基于獎勵的強化學習訓練。這包括漸進式提示采樣,以處理困難樣本;最后,進行對齊強化學習訓練,以增強指令遵循、響應(yīng)格式和偏好對齊能力。

    這種系統(tǒng)化方法確保Keye-VL-1.5在基準測試中取得優(yōu)異性能,同時提供符合人類期望和偏好的響應(yīng)。

    四、基于谷歌、阿里開源模型訓練,克服基礎(chǔ)設(shè)施三大挑戰(zhàn)

    快手Keye-VL-1.5模型架構(gòu)基于Qwen3-8B語言模型,遵循經(jīng)典的多模態(tài)大語言模型架構(gòu),包含三個關(guān)鍵組件:視覺Transformer(ViT)、多層感知機(MLP)投影器和語言解碼器。

    ▲Keye-VL-1.5的模型架構(gòu)

    在ViT組件方面,快手采用谷歌開源的SigLIP-400M-384-14作為視覺編碼器來提取視覺信息。在大語言模型(LLM)組件方面,他們使用阿里的Qwen3-8B作為語言解碼器,以提供通用的世界語義知識理解能力。對于投影器,他們隨機初始化其參數(shù),并在第一階段對其進行充分的預訓練。

    在模型預訓練階段,快手團隊在數(shù)據(jù)構(gòu)建流程中,組建了一個多樣化、高質(zhì)量的語料庫,包含超過1萬億個標記,用于支持模型訓練,其來源既有公共數(shù)據(jù)集,也有內(nèi)部專有數(shù)據(jù)。

    訓練數(shù)據(jù)涵蓋六大主要類別:圖像描述、光學字符識別與視覺問答、目標定位與計數(shù)、交錯數(shù)據(jù)、視頻理解以及純文本數(shù)據(jù)。團隊針對每個數(shù)據(jù)類別的特點設(shè)計了定制化的過濾機制,以確保整體數(shù)據(jù)質(zhì)量。

    為了高效訓練多模態(tài)大語言模型,快手團隊進行了深入的基礎(chǔ)設(shè)施優(yōu)化,以解決三大主要挑戰(zhàn):架構(gòu)異構(gòu)性、負載不均衡和輸入/輸出瓶頸。

    1、異構(gòu)混合并行策略:對于計算模式相對固定的ViT組件,僅采用數(shù)據(jù)并行(DP)以最大化吞吐量;而對于參數(shù)和內(nèi)存消耗極大的LLM,則采用結(jié)合流水線并行(PP)、張量并行(TP)和數(shù)據(jù)并行(DP)的混合并行策略。這種精細化策略是實現(xiàn)Keye-VL-1.5的128K超長序列訓練的關(guān)鍵技術(shù)前提。

    2、動態(tài)負載均衡機制:預先估計每個樣本的時間復雜度,然后使用貪心算法在不同GPU之間分配樣本,從而平衡所有GPU的總步驟時長,提高整體硬件利用率。

    3、靈活且可擴展的數(shù)據(jù)加載器:設(shè)計了一種靈活且可擴展的數(shù)據(jù)加載器,它能深度感知并行訓練的拓撲結(jié)構(gòu);實施了一種I/O服務(wù)器架構(gòu),將視頻解碼等CPU密集型任務(wù)從訓練節(jié)點卸載出去,有效解決了復雜媒體處理帶來的CPU瓶頸問題;實現(xiàn)了實例級的完美恢復機制,確保任務(wù)在中斷后能夠從最后一個成功處理的樣本無縫恢復,顯著提高了大規(guī)模訓練的穩(wěn)定性和效率。

    結(jié)語:AI加速讀懂視頻,或重塑視頻行業(yè)交互與商業(yè)化

    在本研究中,快手提出的Keye-VL-1.5顯著提升了視頻理解和視覺-語言任務(wù)的性能。該模型高效地平衡了時間覆蓋范圍和空間分辨率,且能夠處理更長的視頻和復雜的視覺內(nèi)容,且提升了指令遵循能力和推理能力。

    當AI能夠真正理解視頻的細節(jié)與語義,視頻行業(yè)的推薦、創(chuàng)作、互動和商業(yè)化都將被重塑。Keye-VL-1.5仍處于初步階段,在音頻理解、多模態(tài)內(nèi)容生成、邏輯推理等方面仍存在一些不足。但基于短視頻平臺的海量數(shù)據(jù)儲備,該模型有望在之后快速迭代。