機(jī)器之心原創(chuàng)
作者:冷貓
好玩好用的明星視頻生成產(chǎn)品再更新,用戶操作基礎(chǔ),模型技術(shù)就不基礎(chǔ)。
熟悉生成領(lǐng)域的讀者們最近都被谷歌的一只納米香蕉 nano-banana 刷了屏。
在圖像生成領(lǐng)域,納米香蕉在短期內(nèi)獲得了巨量的影響力,憑著「照片變手辦」的超高真實(shí)感的創(chuàng)意玩法橫掃整個(gè)社交媒體,尤其觸動(dòng)了毛孩子家長(zhǎng)們的心。
在優(yōu)秀的模型實(shí)力基本盤外,真正做到出圈的核心要素還得是「創(chuàng)意」
把自家寵物變成可愛手辦的創(chuàng)意玩法的徹底出圈,讓更多普通用戶意識(shí)到 AI 生成讓想象落地的能力,「這個(gè)好酷,我也想要」的心理觸發(fā)了全民 AI 創(chuàng)作的裂變。
不過,說到在 AI 視頻中玩創(chuàng)意,老玩家PixVerse(拍我 AI)上周五開始在國(guó)內(nèi)開啟免費(fèi)開放周,兩天內(nèi)有創(chuàng)作者在小紅書、短視頻平臺(tái)上玩 Nano banana 3D 手辦,也有創(chuàng)作者用 Nano banana 生圖和拍我 AI 模板結(jié)合,玩衣柜變裝,獲得視頻號(hào)超 5000 點(diǎn)贊量。
在兩年前,Sora 甚至還沒有概念發(fā)布的時(shí)候,PixVerse 就已經(jīng)上線了網(wǎng)頁端產(chǎn)品,上線 30 天內(nèi)就實(shí)現(xiàn)了百萬訪問量。
如此元老級(jí)的視頻生成玩家,在「創(chuàng)意」上是認(rèn)真的。過去那些火遍全網(wǎng)的神奇 AI 特效模板,都出自 PixVerse 之手。
在今年 6 月,國(guó)內(nèi)版本的產(chǎn)品「拍我 AI」正式上線,并搭載了當(dāng)時(shí)最新的 PixVerse V4.5 底模,將長(zhǎng)期霸榜視頻生成應(yīng)用榜的工具提供給期待已久的國(guó)內(nèi)用戶。
當(dāng)時(shí),我們就做了一手全方位的體驗(yàn),非常驚艷,一整個(gè)六邊形戰(zhàn)士。
「讓普通人感覺好玩,讓創(chuàng)作者感覺好用」是拍我 AI 最貼切的標(biāo)簽。
如果你是普通用戶,首頁中令人眼花繚亂的當(dāng)下熱門 AI 視頻模板足夠用來整活,越玩越上頭;如果你是進(jìn)階創(chuàng)作者,文生視頻、圖生視頻、首尾幀、多主體、視頻續(xù)寫等創(chuàng)作工具應(yīng)有盡有,完美支持天馬行空的創(chuàng)作思路。更值得一提的是,PixVerse(拍我 AI)早于 veo3 就推出了音頻音效和對(duì)口型等音頻相關(guān)的創(chuàng)作功能,實(shí)現(xiàn)了視頻創(chuàng)作的全流程閉環(huán)
PixVerse(拍我 AI)至 9 月 10 日期間生成任意視頻不消耗積分,大家可以趁機(jī)隨意嘗試爆款短視頻的創(chuàng)作,產(chǎn)生更多火爆的創(chuàng)意,進(jìn)一步增進(jìn)國(guó)內(nèi)的AI視頻創(chuàng)作熱情。
其發(fā)布的最新的 Agent 創(chuàng)作助手功能,不再只是提供「模板」,而是像一個(gè)隨身的 AI 導(dǎo)演:用戶只需選擇喜歡的模板并上傳一張圖片,Agent 即可自動(dòng)識(shí)別其特征,生成一段 5–30 秒的完整短片。智能體功能不僅覆蓋了目前網(wǎng)絡(luò)上爆火的特效和創(chuàng)意視頻,而且將用戶從繁雜的 Prompt 設(shè)計(jì)工作中解放,讓更多普通人加入到 AI 創(chuàng)作中來。
「照片變手辦」也不再是納米香蕉的標(biāo)簽,我們用這只網(wǎng)紅哈基米的圖像做了智能體創(chuàng)作:PixVerse(拍我 AI)不僅生成了高質(zhì)量的手辦尾幀圖,還生成了一個(gè)炫酷的轉(zhuǎn)場(chǎng)動(dòng)畫。
當(dāng)然,擁有這么多有意思的玩法的平臺(tái)早已受到海量用戶的認(rèn)可。不久前,PixVerse(拍我 AI)的全球用戶數(shù)已躍升至破億的規(guī)模。
要想在全球范圍內(nèi)獲得上億用戶的認(rèn)可,能夠承接上億用戶的創(chuàng)作靈感,PixVerse(拍我 AI)背后的公司 —— 愛詩科技 —— 一定在技術(shù)創(chuàng)新上做對(duì)了些什么。
圖生視頻榜首 PixVerse V5,更全面的六邊形戰(zhàn)士
8 月 27 日,愛詩科技發(fā)布新一代自研視頻生成大模型 PixVerse V5
PixVerse V4.5 已經(jīng)是一個(gè)六邊形戰(zhàn)士了,誰曾想 PixVerse V5 又一次把六邊形硬生生擴(kuò)大了一圈。
根據(jù)權(quán)威獨(dú)立測(cè)評(píng)平臺(tái) Artificial Analysis 最新測(cè)試結(jié)果,PixVerse V5 在圖生視頻(Image to Video)項(xiàng)目中排名全球第一,在文生視頻(Text to Video)項(xiàng)目中位列同樣位居第二,在視頻生成賽道的最前列。
PixVerse V5 的核心優(yōu)勢(shì)在三大方向:
智能理解:一句話生成精準(zhǔn)視頻,指令響應(yīng)更準(zhǔn)確,生成一致性和穩(wěn)定性大幅提升,創(chuàng)意表達(dá)更自由高效。極速生成:視頻生成速度保持在「分鐘級(jí)」提升至「秒級(jí)」的準(zhǔn)實(shí)時(shí)生成,最快 5 秒即可生成一段高質(zhì)量短片,1 分鐘生成 1080P 高清視頻。更逼真自然:通過擴(kuò)大模型參數(shù)規(guī)模和高質(zhì)量訓(xùn)練數(shù)據(jù),顯著提升審美、復(fù)雜動(dòng)作、運(yùn)動(dòng)幅度和光影的還原能力,讓 AI 視頻生成更接近真實(shí)拍攝。
令人驚喜的是 PixVerse V5 的更新并沒有強(qiáng)調(diào)在某一個(gè)特定場(chǎng)景的能力提升。準(zhǔn)確的說,PixVerse V5 版本是對(duì)前一代底模的全方位進(jìn)化。從技術(shù)革新的角度,我們來詳細(xì)探究一下這三大方向上,愛詩科技是怎么走在時(shí)代前沿的。
統(tǒng)一特征空間,指令沒有溝通障礙
從用戶角度而言,一個(gè)「好用」的生成模型,首先得聽得懂訴求。當(dāng)用戶和模型之間有溝通障礙時(shí),生成質(zhì)量再高的模型也很難實(shí)現(xiàn)用戶的目標(biāo),更難以稱得上好用。
就比如下面這個(gè)案例:
某國(guó)內(nèi)頭部產(chǎn)品模型生成的:「萊特兄弟的雙翼飛機(jī)進(jìn)化到噴氣客機(jī)」
拍我 AI 生成的:「萊特兄弟的雙翼飛機(jī)進(jìn)化到噴氣客機(jī)」
越是簡(jiǎn)單模糊的文本指令,越是考驗(yàn)?zāi)P蛯?duì)文本、圖像、視頻多模態(tài)數(shù)據(jù)的理解能力。愛詩科技顯然在多模態(tài)大模型領(lǐng)域有著深刻的積累。
我們知道,VLM 多模態(tài)大模型,能夠同時(shí)處理和理解圖像和文本數(shù)據(jù)。以前的模型大多是「單模態(tài)」的:比如卷積神經(jīng)網(wǎng)絡(luò)只能看圖,語言模型只能看文字。而 VLM 能同時(shí)理解圖像和文本,并且把兩者關(guān)聯(lián)起來,處理更加復(fù)雜的任務(wù)。而在視頻大模型中,視頻相比于圖像增添了時(shí)間維度,語義信息更豐富,更復(fù)雜。
PixVerse(拍我 AI)將不同模態(tài)數(shù)據(jù)映射到同一語義體系,讓不同模態(tài)的數(shù)據(jù)能夠在同一個(gè)語義體系下對(duì)齊和交流,在 VLM 的體系下彌合了用戶指令和生成視頻之間的語義鴻溝。
除了語義理解外,目前在視頻生成領(lǐng)域的最大痛點(diǎn)在于視頻生成的速度普遍不及預(yù)期,并且模型要實(shí)現(xiàn)高質(zhì)量和長(zhǎng)序列的視頻生成,對(duì)訓(xùn)練數(shù)據(jù)和訓(xùn)練資源的需求是巨大的。
愛詩科技在這兩大傳統(tǒng)痛點(diǎn)上持續(xù)發(fā)力,奠定了在視頻生成領(lǐng)域堅(jiān)實(shí)的技術(shù)優(yōu)勢(shì)。
擴(kuò)散極致蒸餾,幾秒完成生成的準(zhǔn)即時(shí)魔法
用過 Sora 生成過視頻的朋友們都應(yīng)該很有感觸,從指令輸入到成片出現(xiàn)至少也要以數(shù)分鐘計(jì)算。一個(gè)慢速的生成模型非常干擾用戶的創(chuàng)作思路,非常影響使用體驗(yàn),更別提連續(xù)創(chuàng)作了。
而生成速度這部分,是 PixVerse(拍我 AI)的傳統(tǒng)強(qiáng)項(xiàng),也是其獲得全球海量 AI 創(chuàng)作用戶青睞的核心競(jìng)爭(zhēng)力。
愛詩科技是業(yè)界第一個(gè)把視頻生成做到 5 秒之內(nèi)的 AI 初創(chuàng)團(tuán)隊(duì)。
在 PixVerse V4.5 的時(shí)候我們就實(shí)測(cè)過,即使我們將各項(xiàng)生成指標(biāo)拉滿,平臺(tái)輸出結(jié)果的時(shí)間也沒有超過 1 分鐘
對(duì)于用戶來說,如此短暫等待能夠成為「準(zhǔn)即時(shí)」生成,完全不給使用帶來負(fù)面影響。
為了實(shí)現(xiàn)超高速的視頻生成,愛詩科技對(duì)視頻擴(kuò)散模型進(jìn)行了大刀闊斧的改進(jìn),采用了「分?jǐn)?shù)匹配蒸餾」的方式,將視頻擴(kuò)散生成過程從幾十步壓縮至極少數(shù)步驟,極大的提高了模型的生成速度。
分?jǐn)?shù)匹配蒸餾是一個(gè)擴(kuò)散模型體系下,將擴(kuò)散模型轉(zhuǎn)換為一步生成,極大地加快了生成速度并保持質(zhì)量的代表性方法。最初,該方法在圖像生成領(lǐng)域使用。在視頻生成領(lǐng)域,該方法具有很大的應(yīng)用潛能。
據(jù)愛詩科技技術(shù)團(tuán)隊(duì)介紹,PixVerse V5 不僅采用了分布匹配損失優(yōu)化模型采樣軌跡提速生成,為了保證視頻生成的質(zhì)量,他們還結(jié)合了特征自約束損失,讓模型實(shí)現(xiàn)自我監(jiān)督,以此穩(wěn)定畫面質(zhì)量,實(shí)現(xiàn)了生成速度和生成質(zhì)量之間完美的平衡。
自研生成架構(gòu),突破創(chuàng)造力上限的驅(qū)動(dòng)力
決定了 PixVerse(拍我 AI)產(chǎn)品能力的核心是底模,決定了底模能力上限的是高質(zhì)量的模型架構(gòu)。
愛詩科技全面采用自研的視頻生成模型,采用 DiT 架構(gòu),在模型結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練策略等方向上進(jìn)行了充分的創(chuàng)新工作,能夠充分激發(fā) DiT 架構(gòu)模型的生成潛力。
為了滿足讀者對(duì)領(lǐng)先的模型的技術(shù)細(xì)節(jié)的好奇心,機(jī)器之心特意向愛詩科技的技術(shù)團(tuán)隊(duì)了解了一些他們?cè)谧匝?DiT 模型的架構(gòu)創(chuàng)新和技術(shù)細(xì)節(jié)。
簡(jiǎn)而言之,DiT 模型將 VAE 框架之下擴(kuò)散去噪中的卷積架構(gòu)換成了 Transformer 架構(gòu),結(jié)合了視覺 transformer 和擴(kuò)散模型的優(yōu)點(diǎn),利用全局注意力機(jī)制,具備可擴(kuò)展性強(qiáng),多模態(tài)擴(kuò)展,生成質(zhì)量高的優(yōu)勢(shì)。
DiT 基本模型架構(gòu)圖,來自論文《Scalable Diffusion Models with Transformers》
DiT 雖然效果好,但是對(duì)訓(xùn)練的算力要求很高,需要有好的模型設(shè)計(jì)以及好的模型訓(xùn)練策略,才能實(shí)現(xiàn)高質(zhì)量的生成。尤其是在視頻生成領(lǐng)域,要采用 DiT 模型進(jìn)行高質(zhì)量視頻生成則更為復(fù)雜,需要在模型架構(gòu)中添加時(shí)間維度。正所謂牽一發(fā)而動(dòng)全身,視頻生成 DiT 模型在算力需求、數(shù)據(jù)需求、分辨率兼容等多個(gè)問題上都面臨著不小的挑戰(zhàn)。
愛詩科技的技術(shù)團(tuán)隊(duì)向我們透露,PixVerse V5 在模型結(jié)構(gòu)設(shè)計(jì)上有兩大亮點(diǎn)
Tokenizer 方面:我們正在訓(xùn)練專用于視頻與圖像生成的 Tokenizer,在保持較高壓縮比的同時(shí),依然能夠保證出色的重建質(zhì)量與生成效果。自適應(yīng) Attention 結(jié)構(gòu)(FullAttn + SparseAttn):通過在計(jì)算量與注意力精度之間動(dòng)態(tài)平衡,不僅能有效降低整體計(jì)算開銷,還能在推理速度幾乎不受影響的前提下,為模型提供更大的規(guī)模擴(kuò)展(ScaleUp)空間,并顯著提升其擬合能力。
眾所周知,視頻數(shù)據(jù)相比于文本和圖像數(shù)據(jù)更為復(fù)雜和龐大,數(shù)據(jù)包含的信息量更大且更難以提取,給模型訓(xùn)練提出了巨大的難題。
為了模型能夠有效學(xué)習(xí)數(shù)據(jù)集中的信息,快速實(shí)現(xiàn)模型收斂,實(shí)現(xiàn)模型性能提升,愛詩科技在模型訓(xùn)練策略上下了很大功夫,PixVerse V5 在多模態(tài)訓(xùn)練策略上有四大創(chuàng)新優(yōu)勢(shì)
多模態(tài)統(tǒng)一表征:將文本、圖像、視頻等模態(tài)映射至同一語義空間,顯著提升模型的理解與生成精度,并加速整體收斂過程。自適應(yīng)加噪去噪:在訓(xùn)練過程中動(dòng)態(tài)調(diào)整噪聲水平,并結(jié)合任務(wù)難度相關(guān)的損失加權(quán)機(jī)制,在不同信噪比條件下有效加速模型收斂。漸進(jìn)式訓(xùn)練策略:采用「由簡(jiǎn)入繁」的訓(xùn)練路徑,先進(jìn)行圖像任務(wù)學(xué)習(xí),再逐步擴(kuò)展至圖像 + 視頻的聯(lián)合訓(xùn)練;在聯(lián)合訓(xùn)練中,從低時(shí)長(zhǎng)到高時(shí)長(zhǎng)、低分辨率到高分辨率逐步遞進(jìn),保證穩(wěn)定收斂與性能提升。原生動(dòng)態(tài)分辨率支持:模型能夠直接處理不同分辨率的圖像與視頻,無需額外的 resize 或 crop 操作;結(jié)合原生動(dòng)態(tài)分辨率與絕對(duì)時(shí)間編碼機(jī)制,使其具備處理多尺度圖像及長(zhǎng)時(shí)序視頻的能力。
另外,愛詩科技團(tuán)隊(duì)透露,他們擁有領(lǐng)先的海量圖像和視頻數(shù)據(jù),和高質(zhì)量、高精準(zhǔn)的精選數(shù)據(jù),不僅能夠?yàn)槟P皖A(yù)訓(xùn)練提供了無限可能的數(shù)據(jù)分布,也在監(jiān)督訓(xùn)練微調(diào)(SFT)階段更上一層臺(tái)階。
這些硬核的技術(shù)革新驅(qū)動(dòng)著 PixVerse 模型的不斷進(jìn)化,支撐著用戶生成動(dòng)作自然、光影真實(shí)、物理規(guī)律準(zhǔn)確的創(chuàng)意視頻,也是滿足廣告、電商、影視、教育、游戲等場(chǎng)景的高標(biāo)準(zhǔn)要求的核心基本盤。
過去,在視頻生成的研究探索階段,我們一般都在討論一些最基本的生成邏輯,包括物理效果,光影效果,動(dòng)作的合理性等等。
隨著技術(shù)的不斷迭代,視頻生成已經(jīng)進(jìn)入了投入實(shí)際應(yīng)用的新階段,而現(xiàn)在我們討論的更多的是生成視頻的創(chuàng)意和美學(xué)范疇了。隨著 PixVerse V4.5 對(duì)各種趣味創(chuàng)意、光影藝術(shù)的創(chuàng)作、鏡頭語言的理解方面的功能實(shí)現(xiàn),我們自然希望 PixVerse V5 在美學(xué)上能夠有一些新的理解。
愛詩科技在模型中利用高質(zhì)量視頻數(shù)據(jù)和人類偏好標(biāo)注,結(jié)合強(qiáng)化學(xué)習(xí)后訓(xùn)練(RLHF),提升了文本 - 視頻對(duì)齊精度、動(dòng)作自然度和美學(xué)評(píng)分。
超可愛的小貓咪舔爪爪,毛茸茸的小窩和字體設(shè)計(jì),PixVerse V5 真的很懂可可愛愛的心頭好。
將人類的審美喜好加入到大模型訓(xùn)練中,讓 AI 更懂人心,更懂審美,為打開模型生成的上限,投入 AI 藝術(shù)創(chuàng)作奠定了堅(jiān)實(shí)的基礎(chǔ)。
疾速成長(zhǎng),領(lǐng)跑視頻生成馬拉松
愛詩科技模型發(fā)展歷程
從 2023 年 7 月開始,愛詩科技訓(xùn)練視頻生成大模型,到 2025 年 8 月底發(fā)布 PixVerse V5 模型,僅有短短的兩年時(shí)間。
在這兩年期間,每隔數(shù)個(gè)月就能有一次模型的迭代,成長(zhǎng)非常迅速。直到 2024 年底,愛詩科技發(fā)布 PixVerse App 產(chǎn)品,創(chuàng)下了全球最快的高質(zhì)量視頻生成的模型紀(jì)錄,真正進(jìn)入應(yīng)用階段。
從 V3 一直到 V5,生成速度從 10 秒進(jìn)化到 5 秒準(zhǔn)實(shí)時(shí),視頻生成進(jìn)入了有聲時(shí)代,鏡頭語言、多主體、智能體等里程碑式功能接連上線,這一切支撐著 PixVerse(拍我 AI)成為了全球用戶量最大的視頻生成平臺(tái)。
AI 視頻生成是一場(chǎng)沒有終點(diǎn)的馬拉松,只有保持高速的技術(shù)迭代、不斷刷新模型的邊界,才能始終引領(lǐng)行業(yè)向前。
愛詩科技創(chuàng)始人兼 CEO 王長(zhǎng)虎博士在 2025 北京智源大會(huì)上表示:「視頻是最貼近用戶的內(nèi)容形態(tài)。一旦視頻生成技術(shù)能夠落地,它的產(chǎn)品化和商業(yè)化潛力可能不亞于大語言模型。」
「去年 2024 年 10 月,我們的 PixVerse V3 上線,這是第一次真正讓普通用戶、普通消費(fèi)者用 AI 能力創(chuàng)造出過去無法創(chuàng)造出來的視頻。在我心中,這一刻才是視頻生成的『GPT 時(shí)刻』?!?/p>
愛詩科技所秉持的愿景與技術(shù)理念,正是要在這條漫長(zhǎng)而激烈的賽道上,持續(xù)釋放視頻這一最貼近用戶的內(nèi)容形態(tài)的潛能,讓創(chuàng)造的能力真正走向每個(gè)普通人。
文中視頻鏈接:https://mp.weixin.qq.com/s/Sk5lEfj-1R5zhV6tNVPI2A