發(fā)布時間:2025-09-06 來源:冠上加冠網(wǎng)作者:jisucu
一項(xiàng)令人興奮的技術(shù)突破正在改變我們創(chuàng)建3D內(nèi)容的方式。由IEIT Systems、南開大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)聯(lián)合開發(fā)的"Droplet3D"系統(tǒng),就像是給AI裝上了一雙"會看視頻學(xué)3D"的眼睛。這項(xiàng)研究發(fā)表于2025年8月,感興趣的讀者可以通過arXiv:2508.20470v1訪問完整論文。
想象一下,如果你看過無數(shù)部電影和視頻,是不是對物體在不同角度下的樣子有了直觀的理解?比如,你知道一個蘋果從側(cè)面看是什么形狀,從上面看又是什么樣子。Droplet3D就是基于這樣的思路工作的——它通過觀看大量視頻來學(xué)習(xí)物體的三維特征,然后能夠根據(jù)一張圖片和文字描述,創(chuàng)造出完整的3D模型。
這個系統(tǒng)最神奇的地方在于,它不僅僅依賴傳統(tǒng)的3D數(shù)據(jù)進(jìn)行學(xué)習(xí),而是巧妙地利用了互聯(lián)網(wǎng)上豐富的視頻資源。就像一個勤奮的學(xué)生通過觀看各種角度的教學(xué)視頻來理解立體幾何一樣,Droplet3D通過分析視頻中物體的多角度展示,掌握了創(chuàng)建3D內(nèi)容的訣竅。
### 一、從數(shù)據(jù)稀缺到視頻賦能:解決3D創(chuàng)作的根本難題
在傳統(tǒng)的3D內(nèi)容創(chuàng)作領(lǐng)域,研究人員面臨著一個棘手的問題:3D數(shù)據(jù)太少了。這就像是想要教一個孩子認(rèn)識動物,但只有寥寥幾張動物圖片,而沒有足夠多樣化的素材供其學(xué)習(xí)。目前最大的開源3D數(shù)據(jù)集Objaverse-XL也僅包含1000萬個樣本,這相比于擁有數(shù)十億樣本的圖像-文本數(shù)據(jù)集來說,簡直是杯水車薪。
這種數(shù)據(jù)稀缺帶來了兩個嚴(yán)重后果。首先,有限的3D數(shù)據(jù)覆蓋范圍不夠全面,就像用有限的食材很難烹飪出豐富多樣的菜肴一樣,現(xiàn)有的3D生成模型難以捕捉真實(shí)世界的全貌。其次,相比于文本和圖像等其他媒體形式,3D生成模型學(xué)到的語義知識相對貧乏,這限制了它們生成多樣化內(nèi)容的能力。
研究團(tuán)隊(duì)意識到,網(wǎng)絡(luò)上豐富的視頻資源可能是解決這個問題的關(guān)鍵。視頻本身就包含了物體從多個角度的信息,這種"天然的3D特性"為訓(xùn)練更強(qiáng)大的3D生成模型提供了新的可能。當(dāng)你觀看一個物體旋轉(zhuǎn)的視頻時,你實(shí)際上是在從不同視角觀察同一個物體,這正是3D建模所需要的核心信息。
更重要的是,視頻數(shù)據(jù)的規(guī)模優(yōu)勢使得模型能夠?qū)W習(xí)到比傳統(tǒng)3D數(shù)據(jù)更廣泛的語義知識。比如,當(dāng)模型需要生成一個"QR碼"這樣的物體時,雖然這類物體在3D數(shù)據(jù)集中很少見,但在視頻數(shù)據(jù)中卻相對常見。通過視頻學(xué)習(xí),模型能夠理解這些概念并成功生成相應(yīng)的3D內(nèi)容。
### 二、構(gòu)建史上最大多視角3D數(shù)據(jù)集:Droplet3D-4M
為了將"從視頻學(xué)3D"的想法變成現(xiàn)實(shí),研究團(tuán)隊(duì)構(gòu)建了一個名為Droplet3D-4M的龐大數(shù)據(jù)集。這個數(shù)據(jù)集包含400萬個3D模型,每個模型都配備了85幀的360度環(huán)繞視頻和平均260個單詞的詳細(xì)文本描述。這就像是為每個3D物體拍攝了一部"紀(jì)錄片",從各個角度詳細(xì)記錄其外觀特征。
整個數(shù)據(jù)集的構(gòu)建過程就像是一個精心設(shè)計(jì)的制片工廠。研究團(tuán)隊(duì)首先從Objaverse-XL收集了630萬個原始3D模型,然后采用了一套巧妙的"粗渲染-篩選-精渲染"流程。這種方法就像是電影制作中的"試拍-審查-正式拍攝"過程,既保證了質(zhì)量,又大大提高了效率,將計(jì)算開銷降低了4到7倍。
在渲染階段,每個3D模型被放置在一個虛擬的攝影棚中,攝像機(jī)沿著一個固定半徑的圓形軌跡進(jìn)行拍攝,確保相鄰幀之間的角度差距嚴(yán)格控制在5度以內(nèi)。這種精確的設(shè)置保證了生成視頻的連貫性,就像專業(yè)攝影師在拍攝產(chǎn)品展示視頻時需要保持穩(wěn)定的運(yùn)鏡速度一樣。
數(shù)據(jù)集最獨(dú)特的創(chuàng)新在于其文本描述系統(tǒng)。與傳統(tǒng)數(shù)據(jù)集只提供簡單的物體標(biāo)簽不同,Droplet3D-4M為每個物體提供了多視角層次的詳細(xì)描述。這些描述不僅包含物體的整體外觀特征,還特別注明了從不同角度觀察時的變化。比如,在描述一個背著背包的卡通人物時,文本會詳細(xì)說明"從側(cè)面看可以看到背包的輪廓,從背面看背包完全顯露"等視角相關(guān)的信息。
為了生成這些高質(zhì)量的文本描述,研究團(tuán)隊(duì)采用了一套創(chuàng)新的訓(xùn)練方法。他們首先使用監(jiān)督學(xué)習(xí)對多模態(tài)大語言模型進(jìn)行微調(diào),然后采用GRPO(Group Relative Policy Optimization)強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)一步優(yōu)化。這個過程就像是訓(xùn)練一個專業(yè)的藝術(shù)品解說員,不僅要求其能準(zhǔn)確描述物體的基本特征,還要能夠詳細(xì)解釋從不同角度觀察時的視覺變化。
### 三、Droplet3D技術(shù)架構(gòu):繼承視頻模型的智慧
Droplet3D系統(tǒng)的核心理念是繼承預(yù)訓(xùn)練視頻生成模型的強(qiáng)大能力,然后將這些能力遷移到3D內(nèi)容生成任務(wù)上。這就像是讓一個已經(jīng)掌握了繪畫技巧的藝術(shù)家去學(xué)習(xí)雕塑,雖然媒介不同,但底層的空間感知和創(chuàng)作能力是可以互相借鑒的。
系統(tǒng)選擇DropletVideo作為基礎(chǔ)模型并非偶然。DropletVideo是一個專門考慮時空一致性的視頻生成模型,它在訓(xùn)練過程中接觸了大量包含空間一致性約束的視頻片段,比如街景漫游或人物環(huán)繞拍攝等。這些特性使其天然具備了3D一致性的潛力,就像一個經(jīng)常觀看旋轉(zhuǎn)展示視頻的人會對物體的立體結(jié)構(gòu)有更好的直覺一樣。
在技術(shù)架構(gòu)上,Droplet3D包含兩個核心組件:3D因果變分自編碼器(3D Causal VAE)和3D模態(tài)專家變換器。3D因果VAE的作用就像是一個智能的視頻壓縮器,它能夠?qū)?5幀圖像的環(huán)繞視頻壓縮成緊湊的潛在空間表示,同時保持視頻的時間連續(xù)性和空間一致性。這種設(shè)計(jì)確保了生成的視頻不會出現(xiàn)閃爍或不連貫的問題。
3D模態(tài)專家變換器則負(fù)責(zé)融合文本和視覺信息。這個組件使用了3D全注意力機(jī)制,能夠同時處理文本輸入和視頻輸入。相比于傳統(tǒng)的解耦方法,這種集成策略能夠更好地捕捉視頻中的動態(tài)變化,并增強(qiáng)生成內(nèi)容在語義一致性和多樣性方面的表現(xiàn)。
### 四、用戶體驗(yàn)優(yōu)化:讓任意輸入變得可能
為了讓Droplet3D能夠處理來自真實(shí)用戶的各種輸入,研究團(tuán)隊(duì)設(shè)計(jì)了兩個關(guān)鍵的預(yù)處理模塊:文本重寫模塊和圖像視角對齊模塊。
文本重寫模塊就像是一個貼心的翻譯官,它能夠?qū)⒂脩籼峁┑暮唵挝谋久枋鲛D(zhuǎn)換成符合訓(xùn)練數(shù)據(jù)分布的詳細(xì)描述。比如,當(dāng)用戶只輸入"一個卡通熊貓宇航員"時,系統(tǒng)會自動擴(kuò)展為包含外觀細(xì)節(jié)、材質(zhì)描述和多視角變化的完整敘述。這個模塊通過LoRA技術(shù)對開源語言模型進(jìn)行微調(diào),使用約500個領(lǐng)域內(nèi)樣本就能達(dá)到理想的效果。
圖像視角對齊模塊解決了另一個實(shí)際問題:用戶上傳的圖像可能來自任意角度。傳統(tǒng)的3D生成方法通常只有在提供標(biāo)準(zhǔn)視角(如正面、側(cè)面等)時才能達(dá)到最佳效果,這對用戶來說是一個很大的限制。研究團(tuán)隊(duì)基于FLUX.1-Kontext-dev模型,通過LoRA微調(diào)技術(shù)訓(xùn)練了一個視角對齊模型。這個模型能夠?qū)⑷我饨嵌扰臄z的圖像轉(zhuǎn)換為標(biāo)準(zhǔn)的正面、左側(cè)、右側(cè)或背面視角,就像是一個智能的"角度校正器"。
這兩個模塊的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對用戶體驗(yàn)的深入思考。它們不僅解決了技術(shù)上的挑戰(zhàn),更重要的是降低了普通用戶使用系統(tǒng)的門檻,讓3D內(nèi)容創(chuàng)作變得更加便捷和直觀。
### 五、實(shí)驗(yàn)驗(yàn)證:超越傳統(tǒng)方法的全面表現(xiàn)
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,結(jié)果表明Droplet3D在多個指標(biāo)上都顯著超越了現(xiàn)有方法。在與LGM和MVControl等同時支持圖像和文本輸入的3D生成方法比較中,Droplet3D在PSNR、LPIPS、MSE和CLIP-S等關(guān)鍵指標(biāo)上都取得了最佳表現(xiàn)。
特別值得注意的是,Droplet3D在CLIP-S指標(biāo)上的表現(xiàn)尤為出色,達(dá)到了0.866的高分,遠(yuǎn)超其他方法。CLIP-S指標(biāo)衡量的是生成內(nèi)容與文本描述之間的語義匹配程度,這一結(jié)果證明了視頻預(yù)訓(xùn)練在增強(qiáng)模型語義理解能力方面的有效性。研究團(tuán)隊(duì)將這一優(yōu)勢歸因于T5文本編碼器的使用以及在大規(guī)模視頻數(shù)據(jù)上的預(yù)訓(xùn)練。
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各個組件的重要性。對比實(shí)驗(yàn)顯示,相比于原始的DropletVideo模型,經(jīng)過Droplet3D-4M數(shù)據(jù)集微調(diào)后的模型在空間一致性方面有了顯著提升。這就像是一個原本只會畫2D畫的畫家,通過專門的立體繪畫訓(xùn)練后,能夠創(chuàng)作出更加立體和一致的作品。
研究還對比了不同視頻生成模型作為基礎(chǔ)架構(gòu)的效果。結(jié)果顯示,DropletVideo確實(shí)比同等規(guī)模的其他模型(如Cogvideox-Fun)更適合作為3D生成的基礎(chǔ),甚至與參數(shù)量更大的模型(如Wan2.1-I2V-14B和Step-Video-TI2V-30B)相比也毫不遜色。這驗(yàn)證了選擇具有內(nèi)在空間一致性能力的視頻模型作為基礎(chǔ)的重要性。
### 六、創(chuàng)新應(yīng)用展示:從可控創(chuàng)作到場景生成
Droplet3D展現(xiàn)出了多種令人印象深刻的應(yīng)用能力,其中最突出的是基于語言提示的可控創(chuàng)作功能。這種能力就像是給了用戶一支魔法畫筆,能夠根據(jù)文字描述精確地修改3D對象的特定部分。
在一個經(jīng)典的演示案例中,研究團(tuán)隊(duì)展示了如何基于同一張熊貓宇航員的圖像,通過不同的文字描述生成具有不同背包的3D模型。當(dāng)描述中提到"太空背包"時,生成的模型會顯示一個科技感十足的裝備;當(dāng)提到"橙色背包"時,背部會出現(xiàn)一個橙色的實(shí)驗(yàn)裝備;而當(dāng)描述為"彩虹色能量球"時,則會生成一個裝有發(fā)光能量核心的透明背包。這種精細(xì)的控制能力在傳統(tǒng)的3D生成方法中是很難實(shí)現(xiàn)的。
系統(tǒng)還表現(xiàn)出了強(qiáng)大的風(fēng)格化輸入處理能力。即使訓(xùn)練數(shù)據(jù)完全基于真實(shí)感渲染,Droplet3D仍然能夠很好地處理手繪草圖、漫畫風(fēng)格圖像等風(fēng)格化輸入。這種泛化能力可能源自其視頻預(yù)訓(xùn)練階段接觸的豐富視覺內(nèi)容,使模型具備了更強(qiáng)的通用視覺理解能力。
更令人興奮的是,Droplet3D展現(xiàn)出了場景級3D內(nèi)容生成的潛力。雖然訓(xùn)練數(shù)據(jù)Droplet3D-4M只包含物體級別的樣本,但系統(tǒng)能夠處理包含復(fù)雜場景的輸入,如城堡莊園、雷電島嶼、夜間河畔和太空站內(nèi)部等。這種能力完全繼承自DropletVideo的視頻生成能力,展現(xiàn)了視頻驅(qū)動方法的獨(dú)特優(yōu)勢。
在實(shí)際應(yīng)用方面,生成的多視角圖像可以進(jìn)一步轉(zhuǎn)換為多種3D表示形式。研究團(tuán)隊(duì)展示了基于Hunyuan3D-2的紋理網(wǎng)格生成結(jié)果,以及基于3D高斯涂抹技術(shù)的點(diǎn)云重建效果。這些下游應(yīng)用證明了系統(tǒng)生成內(nèi)容的實(shí)用性和工業(yè)級質(zhì)量。
### 七、技術(shù)細(xì)節(jié)與創(chuàng)新突破
Droplet3D的成功離不開一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。在模型訓(xùn)練方面,系統(tǒng)采用了DropletVideo-5B模型作為權(quán)重初始化,使用t5-v1_1-xxl作為文本編碼器,并將最大token長度從226擴(kuò)展到400,以適應(yīng)更長的文本描述。這種擴(kuò)展就像是給翻譯官配備了更大的詞匯庫,能夠處理更復(fù)雜和詳細(xì)的描述內(nèi)容。
模型架構(gòu)基于MMDiT系列,包含42個層,每層48個注意力頭,每個頭的維度為64。時間步嵌入維度設(shè)置為512。在優(yōu)化方面,使用Adam優(yōu)化器,權(quán)重衰減為3×10^-2,學(xué)習(xí)率為2×10^-5。采樣幀數(shù)固定為85幀,使用bfloat16混合精度訓(xùn)練方法。
在推理階段,分類器無關(guān)引導(dǎo)尺度設(shè)置為6.5,以增強(qiáng)生成環(huán)繞視頻的運(yùn)動平滑性。當(dāng)在Droplet3D-4M數(shù)據(jù)集上訓(xùn)練時,模型支持512分辨率的圖像生成。這些參數(shù)的精心調(diào)節(jié)確保了生成內(nèi)容的質(zhì)量和一致性。
對于正則視角對齊訓(xùn)練,LoRA的網(wǎng)絡(luò)維度設(shè)置為128,學(xué)習(xí)率為1e-4,使用AdamW8bit優(yōu)化器。這種輕量級的微調(diào)方法既保證了效果,又控制了計(jì)算成本。
在數(shù)據(jù)質(zhì)量控制方面,研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。使用LAION美學(xué)模型計(jì)算美學(xué)分?jǐn)?shù),DOVER-Technical模型評估圖像質(zhì)量,只有同時超過4.0分的樣本才會被保留。統(tǒng)計(jì)結(jié)果顯示,約77%的樣本達(dá)到了美學(xué)分?jǐn)?shù)4.0以上的標(biāo)準(zhǔn),約81%的樣本在圖像質(zhì)量方面超過了4.0分,這確保了數(shù)據(jù)集的整體高質(zhì)量水平。
### 八、未來展望與影響意義
Droplet3D的成功驗(yàn)證了"從視頻學(xué)習(xí)3D"這一創(chuàng)新范式的可行性,為3D內(nèi)容生成領(lǐng)域開辟了新的發(fā)展方向。這種方法的核心價值在于充分利用了互聯(lián)網(wǎng)上豐富的視頻資源,解決了傳統(tǒng)3D數(shù)據(jù)稀缺的根本問題。
從技術(shù)發(fā)展趨勢來看,視頻驅(qū)動的3D生成方法可能會成為未來的主流方向。隨著視頻內(nèi)容的持續(xù)增長和視頻理解技術(shù)的不斷進(jìn)步,這類方法有望在數(shù)據(jù)規(guī)模、語義理解和生成質(zhì)量等方面繼續(xù)獲得優(yōu)勢。特別是在處理復(fù)雜場景和理解抽象概念方面,視頻預(yù)訓(xùn)練帶來的語義知識將發(fā)揮越來越重要的作用。
對于內(nèi)容創(chuàng)作產(chǎn)業(yè)而言,Droplet3D展示的能力具有重要的實(shí)踐價值。支持圖像和文本雙重輸入的特性使得創(chuàng)作者能夠更精確地控制生成結(jié)果,這種細(xì)粒度的控制能力在游戲開發(fā)、動畫制作、虛擬現(xiàn)實(shí)等領(lǐng)域都有廣泛的應(yīng)用前景。特別是系統(tǒng)展現(xiàn)出的場景級生成潛力,可能會改變傳統(tǒng)的3D場景構(gòu)建流程。
研究團(tuán)隊(duì)將所有資源完全開源,包括Droplet3D-4M數(shù)據(jù)集、完整的技術(shù)框架、代碼實(shí)現(xiàn)和模型權(quán)重,這種開放態(tài)度將有助于推動整個領(lǐng)域的快速發(fā)展。開源資源的提供降低了其他研究者的入門門檻,有望催生更多創(chuàng)新應(yīng)用和技術(shù)改進(jìn)。
從更廣闊的視角來看,這項(xiàng)研究體現(xiàn)了人工智能發(fā)展中的一個重要趨勢:通過多模態(tài)學(xué)習(xí)和知識遷移來解決特定領(lǐng)域的數(shù)據(jù)稀缺問題。這種思路不僅適用于3D生成,也可能在其他面臨類似挑戰(zhàn)的領(lǐng)域發(fā)揮作用。
說到底,Droplet3D不僅僅是一個技術(shù)突破,更是一個思維方式的轉(zhuǎn)變。它告訴我們,當(dāng)直接數(shù)據(jù)不足時,我們可以從相關(guān)的豐富數(shù)據(jù)中學(xué)習(xí)遷移知識,這種"曲線救國"的策略往往能夠取得意想不到的效果。對于普通用戶而言,這意味著3D內(nèi)容創(chuàng)作的門檻正在快速降低,未來我們可能只需要一張照片和幾句話,就能創(chuàng)造出專業(yè)級的3D作品。這種技術(shù)進(jìn)步不僅會改變內(nèi)容創(chuàng)作的方式,也會為虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和元宇宙等新興領(lǐng)域提供強(qiáng)有力的技術(shù)支撐。有興趣深入了解這項(xiàng)研究的讀者,可以訪問完整論文獲取更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。
Q&A
Q1:Droplet3D-4M數(shù)據(jù)集有什么特別之處?為什么比其他3D數(shù)據(jù)集更厲害?
A:Droplet3D-4M包含400萬個3D模型,每個都配有85幀360度環(huán)繞視頻和平均260詞的詳細(xì)文本描述。與其他數(shù)據(jù)集不同,它的文本描述是"多視角層次"的,會詳細(xì)說明物體從不同角度看的變化,比如"從側(cè)面能看到背包輪廓,從背面背包完全顯露"。這就像給每個3D物體拍了紀(jì)錄片并配了專業(yè)解說,比傳統(tǒng)只有簡單標(biāo)簽的數(shù)據(jù)集豐富得多。
Q2:為什么要用視頻來訓(xùn)練3D生成模型?這樣做有什么好處?
A:因?yàn)?D數(shù)據(jù)太稀缺了,最大的3D數(shù)據(jù)集也只有1000萬樣本,而圖像數(shù)據(jù)集有幾十億樣本。視頻天然包含多角度信息,一個物體旋轉(zhuǎn)的視頻實(shí)際上就是從不同視角觀察同一物體。更重要的是,視頻包含更豐富的語義知識,比如生成"QR碼"這種在3D數(shù)據(jù)中很少見但在視頻中常見的物體。這就像讓AI通過看電影學(xué)會了立體感知。
Q3:普通用戶可以用Droplet3D做什么?需要什么技術(shù)基礎(chǔ)嗎?
A:用戶只需提供一張圖片和文字描述就能生成3D模型。系統(tǒng)很智能,會自動把簡單描述擴(kuò)展成詳細(xì)文本,也會把任意角度的照片調(diào)整到標(biāo)準(zhǔn)視角。比如上傳一張隨手拍的熊貓照片,描述"橙色背包",就能生成帶橙色背包的3D熊貓模型。生成的結(jié)果可以轉(zhuǎn)換成游戲用的網(wǎng)格模型或VR用的高斯涂抹格式,不需要專業(yè)3D建模知識。