清華北航等打造"Droplet3D"：從視頻中學(xué)會(huì)3D創(chuàng)作的AI系統(tǒng)

一項(xiàng)令人興奮的技術(shù)突破正在改變我們創(chuàng)建3D內(nèi)容的方式。由IEIT Systems、南開(kāi)大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)聯(lián)合開(kāi)發(fā)的"Droplet3D"系統(tǒng)，就像是給AI裝上了一雙"會(huì)看視頻學(xué)3D"的眼睛。這項(xiàng)研究發(fā)表于2025年8月，感興趣的讀者可以通過(guò)arXiv:2508.20470v1訪問(wèn)完整論文。

想象一下，如果你看過(guò)無(wú)數(shù)部電影和視頻，是不是對(duì)物體在不同角度下的樣子有了直觀的理解？比如，你知道一個(gè)蘋(píng)果從側(cè)面看是什么形狀，從上面看又是什么樣子。Droplet3D就是基于這樣的思路工作的——它通過(guò)觀看大量視頻來(lái)學(xué)習(xí)物體的三維特征，然后能夠根據(jù)一張圖片和文字描述，創(chuàng)造出完整的3D模型。

這個(gè)系統(tǒng)最神奇的地方在于，它不僅僅依賴(lài)傳統(tǒng)的3D數(shù)據(jù)進(jìn)行學(xué)習(xí)，而是巧妙地利用了互聯(lián)網(wǎng)上豐富的視頻資源。就像一個(gè)勤奮的學(xué)生通過(guò)觀看各種角度的教學(xué)視頻來(lái)理解立體幾何一樣，Droplet3D通過(guò)分析視頻中物體的多角度展示，掌握了創(chuàng)建3D內(nèi)容的訣竅。

### 一、從數(shù)據(jù)稀缺到視頻賦能：解決3D創(chuàng)作的根本難題

在傳統(tǒng)的3D內(nèi)容創(chuàng)作領(lǐng)域，研究人員面臨著一個(gè)棘手的問(wèn)題：3D數(shù)據(jù)太少了。這就像是想要教一個(gè)孩子認(rèn)識(shí)動(dòng)物，但只有寥寥幾張動(dòng)物圖片，而沒(méi)有足夠多樣化的素材供其學(xué)習(xí)。目前最大的開(kāi)源3D數(shù)據(jù)集Objaverse-XL也僅包含1000萬(wàn)個(gè)樣本，這相比于擁有數(shù)十億樣本的圖像-文本數(shù)據(jù)集來(lái)說(shuō)，簡(jiǎn)直是杯水車(chē)薪。

這種數(shù)據(jù)稀缺帶來(lái)了兩個(gè)嚴(yán)重后果。首先，有限的3D數(shù)據(jù)覆蓋范圍不夠全面，就像用有限的食材很難烹飪出豐富多樣的菜肴一樣，現(xiàn)有的3D生成模型難以捕捉真實(shí)世界的全貌。其次，相比于文本和圖像等其他媒體形式，3D生成模型學(xué)到的語(yǔ)義知識(shí)相對(duì)貧乏，這限制了它們生成多樣化內(nèi)容的能力。

研究團(tuán)隊(duì)意識(shí)到，網(wǎng)絡(luò)上豐富的視頻資源可能是解決這個(gè)問(wèn)題的關(guān)鍵。視頻本身就包含了物體從多個(gè)角度的信息，這種"天然的3D特性"為訓(xùn)練更強(qiáng)大的3D生成模型提供了新的可能。當(dāng)你觀看一個(gè)物體旋轉(zhuǎn)的視頻時(shí)，你實(shí)際上是在從不同視角觀察同一個(gè)物體，這正是3D建模所需要的核心信息。

更重要的是，視頻數(shù)據(jù)的規(guī)模優(yōu)勢(shì)使得模型能夠?qū)W習(xí)到比傳統(tǒng)3D數(shù)據(jù)更廣泛的語(yǔ)義知識(shí)。比如，當(dāng)模型需要生成一個(gè)"QR碼"這樣的物體時(shí)，雖然這類(lèi)物體在3D數(shù)據(jù)集中很少見(jiàn)，但在視頻數(shù)據(jù)中卻相對(duì)常見(jiàn)。通過(guò)視頻學(xué)習(xí)，模型能夠理解這些概念并成功生成相應(yīng)的3D內(nèi)容。

### 二、構(gòu)建史上最大多視角3D數(shù)據(jù)集：Droplet3D-4M

為了將"從視頻學(xué)3D"的想法變成現(xiàn)實(shí)，研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為Droplet3D-4M的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含400萬(wàn)個(gè)3D模型，每個(gè)模型都配備了85幀的360度環(huán)繞視頻和平均260個(gè)單詞的詳細(xì)文本描述。這就像是為每個(gè)3D物體拍攝了一部"紀(jì)錄片"，從各個(gè)角度詳細(xì)記錄其外觀特征。

整個(gè)數(shù)據(jù)集的構(gòu)建過(guò)程就像是一個(gè)精心設(shè)計(jì)的制片工廠。研究團(tuán)隊(duì)首先從Objaverse-XL收集了630萬(wàn)個(gè)原始3D模型，然后采用了一套巧妙的"粗渲染-篩選-精渲染"流程。這種方法就像是電影制作中的"試拍-審查-正式拍攝"過(guò)程，既保證了質(zhì)量，又大大提高了效率，將計(jì)算開(kāi)銷(xiāo)降低了4到7倍。

在渲染階段，每個(gè)3D模型被放置在一個(gè)虛擬的攝影棚中，攝像機(jī)沿著一個(gè)固定半徑的圓形軌跡進(jìn)行拍攝，確保相鄰幀之間的角度差距嚴(yán)格控制在5度以?xún)?nèi)。這種精確的設(shè)置保證了生成視頻的連貫性，就像專(zhuān)業(yè)攝影師在拍攝產(chǎn)品展示視頻時(shí)需要保持穩(wěn)定的運(yùn)鏡速度一樣。

數(shù)據(jù)集最獨(dú)特的創(chuàng)新在于其文本描述系統(tǒng)。與傳統(tǒng)數(shù)據(jù)集只提供簡(jiǎn)單的物體標(biāo)簽不同，Droplet3D-4M為每個(gè)物體提供了多視角層次的詳細(xì)描述。這些描述不僅包含物體的整體外觀特征，還特別注明了從不同角度觀察時(shí)的變化。比如，在描述一個(gè)背著背包的卡通人物時(shí)，文本會(huì)詳細(xì)說(shuō)明"從側(cè)面看可以看到背包的輪廓，從背面看背包完全顯露"等視角相關(guān)的信息。

為了生成這些高質(zhì)量的文本描述，研究團(tuán)隊(duì)采用了一套創(chuàng)新的訓(xùn)練方法。他們首先使用監(jiān)督學(xué)習(xí)對(duì)多模態(tài)大語(yǔ)言模型進(jìn)行微調(diào)，然后采用GRPO（Group Relative Policy Optimization）強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)一步優(yōu)化。這個(gè)過(guò)程就像是訓(xùn)練一個(gè)專(zhuān)業(yè)的藝術(shù)品解說(shuō)員，不僅要求其能準(zhǔn)確描述物體的基本特征，還要能夠詳細(xì)解釋從不同角度觀察時(shí)的視覺(jué)變化。

### 三、Droplet3D技術(shù)架構(gòu)：繼承視頻模型的智慧

Droplet3D系統(tǒng)的核心理念是繼承預(yù)訓(xùn)練視頻生成模型的強(qiáng)大能力，然后將這些能力遷移到3D內(nèi)容生成任務(wù)上。這就像是讓一個(gè)已經(jīng)掌握了繪畫(huà)技巧的藝術(shù)家去學(xué)習(xí)雕塑，雖然媒介不同，但底層的空間感知和創(chuàng)作能力是可以互相借鑒的。

系統(tǒng)選擇DropletVideo作為基礎(chǔ)模型并非偶然。DropletVideo是一個(gè)專(zhuān)門(mén)考慮時(shí)空一致性的視頻生成模型，它在訓(xùn)練過(guò)程中接觸了大量包含空間一致性約束的視頻片段，比如街景漫游或人物環(huán)繞拍攝等。這些特性使其天然具備了3D一致性的潛力，就像一個(gè)經(jīng)常觀看旋轉(zhuǎn)展示視頻的人會(huì)對(duì)物體的立體結(jié)構(gòu)有更好的直覺(jué)一樣。

在技術(shù)架構(gòu)上，Droplet3D包含兩個(gè)核心組件：3D因果變分自編碼器（3D Causal VAE）和3D模態(tài)專(zhuān)家變換器。3D因果VAE的作用就像是一個(gè)智能的視頻壓縮器，它能夠?qū)?5幀圖像的環(huán)繞視頻壓縮成緊湊的潛在空間表示，同時(shí)保持視頻的時(shí)間連續(xù)性和空間一致性。這種設(shè)計(jì)確保了生成的視頻不會(huì)出現(xiàn)閃爍或不連貫的問(wèn)題。

3D模態(tài)專(zhuān)家變換器則負(fù)責(zé)融合文本和視覺(jué)信息。這個(gè)組件使用了3D全注意力機(jī)制，能夠同時(shí)處理文本輸入和視頻輸入。相比于傳統(tǒng)的解耦方法，這種集成策略能夠更好地捕捉視頻中的動(dòng)態(tài)變化，并增強(qiáng)生成內(nèi)容在語(yǔ)義一致性和多樣性方面的表現(xiàn)。

### 四、用戶體驗(yàn)優(yōu)化：讓任意輸入變得可能

為了讓Droplet3D能夠處理來(lái)自真實(shí)用戶的各種輸入，研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)關(guān)鍵的預(yù)處理模塊：文本重寫(xiě)模塊和圖像視角對(duì)齊模塊。

文本重寫(xiě)模塊就像是一個(gè)貼心的翻譯官，它能夠?qū)⒂脩籼峁┑暮?jiǎn)單文本描述轉(zhuǎn)換成符合訓(xùn)練數(shù)據(jù)分布的詳細(xì)描述。比如，當(dāng)用戶只輸入"一個(gè)卡通熊貓宇航員"時(shí)，系統(tǒng)會(huì)自動(dòng)擴(kuò)展為包含外觀細(xì)節(jié)、材質(zhì)描述和多視角變化的完整敘述。這個(gè)模塊通過(guò)LoRA技術(shù)對(duì)開(kāi)源語(yǔ)言模型進(jìn)行微調(diào)，使用約500個(gè)領(lǐng)域內(nèi)樣本就能達(dá)到理想的效果。

圖像視角對(duì)齊模塊解決了另一個(gè)實(shí)際問(wèn)題：用戶上傳的圖像可能來(lái)自任意角度。傳統(tǒng)的3D生成方法通常只有在提供標(biāo)準(zhǔn)視角（如正面、側(cè)面等）時(shí)才能達(dá)到最佳效果，這對(duì)用戶來(lái)說(shuō)是一個(gè)很大的限制。研究團(tuán)隊(duì)基于FLUX.1-Kontext-dev模型，通過(guò)LoRA微調(diào)技術(shù)訓(xùn)練了一個(gè)視角對(duì)齊模型。這個(gè)模型能夠?qū)⑷我饨嵌扰臄z的圖像轉(zhuǎn)換為標(biāo)準(zhǔn)的正面、左側(cè)、右側(cè)或背面視角，就像是一個(gè)智能的"角度校正器"。

這兩個(gè)模塊的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對(duì)用戶體驗(yàn)的深入思考。它們不僅解決了技術(shù)上的挑戰(zhàn)，更重要的是降低了普通用戶使用系統(tǒng)的門(mén)檻，讓3D內(nèi)容創(chuàng)作變得更加便捷和直觀。

### 五、實(shí)驗(yàn)驗(yàn)證：超越傳統(tǒng)方法的全面表現(xiàn)

研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證，結(jié)果表明Droplet3D在多個(gè)指標(biāo)上都顯著超越了現(xiàn)有方法。在與LGM和MVControl等同時(shí)支持圖像和文本輸入的3D生成方法比較中，Droplet3D在PSNR、LPIPS、MSE和CLIP-S等關(guān)鍵指標(biāo)上都取得了最佳表現(xiàn)。

特別值得注意的是，Droplet3D在CLIP-S指標(biāo)上的表現(xiàn)尤為出色，達(dá)到了0.866的高分，遠(yuǎn)超其他方法。CLIP-S指標(biāo)衡量的是生成內(nèi)容與文本描述之間的語(yǔ)義匹配程度，這一結(jié)果證明了視頻預(yù)訓(xùn)練在增強(qiáng)模型語(yǔ)義理解能力方面的有效性。研究團(tuán)隊(duì)將這一優(yōu)勢(shì)歸因于T5文本編碼器的使用以及在大規(guī)模視頻數(shù)據(jù)上的預(yù)訓(xùn)練。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各個(gè)組件的重要性。對(duì)比實(shí)驗(yàn)顯示，相比于原始的DropletVideo模型，經(jīng)過(guò)Droplet3D-4M數(shù)據(jù)集微調(diào)后的模型在空間一致性方面有了顯著提升。這就像是一個(gè)原本只會(huì)畫(huà)2D畫(huà)的畫(huà)家，通過(guò)專(zhuān)門(mén)的立體繪畫(huà)訓(xùn)練后，能夠創(chuàng)作出更加立體和一致的作品。

研究還對(duì)比了不同視頻生成模型作為基礎(chǔ)架構(gòu)的效果。結(jié)果顯示，DropletVideo確實(shí)比同等規(guī)模的其他模型（如Cogvideox-Fun）更適合作為3D生成的基礎(chǔ)，甚至與參數(shù)量更大的模型（如Wan2.1-I2V-14B和Step-Video-TI2V-30B）相比也毫不遜色。這驗(yàn)證了選擇具有內(nèi)在空間一致性能力的視頻模型作為基礎(chǔ)的重要性。

### 六、創(chuàng)新應(yīng)用展示：從可控創(chuàng)作到場(chǎng)景生成

Droplet3D展現(xiàn)出了多種令人印象深刻的應(yīng)用能力，其中最突出的是基于語(yǔ)言提示的可控創(chuàng)作功能。這種能力就像是給了用戶一支魔法畫(huà)筆，能夠根據(jù)文字描述精確地修改3D對(duì)象的特定部分。

在一個(gè)經(jīng)典的演示案例中，研究團(tuán)隊(duì)展示了如何基于同一張熊貓宇航員的圖像，通過(guò)不同的文字描述生成具有不同背包的3D模型。當(dāng)描述中提到"太空背包"時(shí)，生成的模型會(huì)顯示一個(gè)科技感十足的裝備；當(dāng)提到"橙色背包"時(shí)，背部會(huì)出現(xiàn)一個(gè)橙色的實(shí)驗(yàn)裝備；而當(dāng)描述為"彩虹色能量球"時(shí)，則會(huì)生成一個(gè)裝有發(fā)光能量核心的透明背包。這種精細(xì)的控制能力在傳統(tǒng)的3D生成方法中是很難實(shí)現(xiàn)的。

系統(tǒng)還表現(xiàn)出了強(qiáng)大的風(fēng)格化輸入處理能力。即使訓(xùn)練數(shù)據(jù)完全基于真實(shí)感渲染，Droplet3D仍然能夠很好地處理手繪草圖、漫畫(huà)風(fēng)格圖像等風(fēng)格化輸入。這種泛化能力可能源自其視頻預(yù)訓(xùn)練階段接觸的豐富視覺(jué)內(nèi)容，使模型具備了更強(qiáng)的通用視覺(jué)理解能力。

更令人興奮的是，Droplet3D展現(xiàn)出了場(chǎng)景級(jí)3D內(nèi)容生成的潛力。雖然訓(xùn)練數(shù)據(jù)Droplet3D-4M只包含物體級(jí)別的樣本，但系統(tǒng)能夠處理包含復(fù)雜場(chǎng)景的輸入，如城堡莊園、雷電島嶼、夜間河畔和太空站內(nèi)部等。這種能力完全繼承自DropletVideo的視頻生成能力，展現(xiàn)了視頻驅(qū)動(dòng)方法的獨(dú)特優(yōu)勢(shì)。

在實(shí)際應(yīng)用方面，生成的多視角圖像可以進(jìn)一步轉(zhuǎn)換為多種3D表示形式。研究團(tuán)隊(duì)展示了基于Hunyuan3D-2的紋理網(wǎng)格生成結(jié)果，以及基于3D高斯涂抹技術(shù)的點(diǎn)云重建效果。這些下游應(yīng)用證明了系統(tǒng)生成內(nèi)容的實(shí)用性和工業(yè)級(jí)質(zhì)量。

### 七、技術(shù)細(xì)節(jié)與創(chuàng)新突破

Droplet3D的成功離不開(kāi)一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。在模型訓(xùn)練方面，系統(tǒng)采用了DropletVideo-5B模型作為權(quán)重初始化，使用t5-v1_1-xxl作為文本編碼器，并將最大token長(zhǎng)度從226擴(kuò)展到400，以適應(yīng)更長(zhǎng)的文本描述。這種擴(kuò)展就像是給翻譯官配備了更大的詞匯庫(kù)，能夠處理更復(fù)雜和詳細(xì)的描述內(nèi)容。

模型架構(gòu)基于MMDiT系列，包含42個(gè)層，每層48個(gè)注意力頭，每個(gè)頭的維度為64。時(shí)間步嵌入維度設(shè)置為512。在優(yōu)化方面，使用Adam優(yōu)化器，權(quán)重衰減為3×10^-2，學(xué)習(xí)率為2×10^-5。采樣幀數(shù)固定為85幀，使用bfloat16混合精度訓(xùn)練方法。

在推理階段，分類(lèi)器無(wú)關(guān)引導(dǎo)尺度設(shè)置為6.5，以增強(qiáng)生成環(huán)繞視頻的運(yùn)動(dòng)平滑性。當(dāng)在Droplet3D-4M數(shù)據(jù)集上訓(xùn)練時(shí)，模型支持512分辨率的圖像生成。這些參數(shù)的精心調(diào)節(jié)確保了生成內(nèi)容的質(zhì)量和一致性。

對(duì)于正則視角對(duì)齊訓(xùn)練，LoRA的網(wǎng)絡(luò)維度設(shè)置為128，學(xué)習(xí)率為1e-4，使用AdamW8bit優(yōu)化器。這種輕量級(jí)的微調(diào)方法既保證了效果，又控制了計(jì)算成本。

在數(shù)據(jù)質(zhì)量控制方面，研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。使用LAION美學(xué)模型計(jì)算美學(xué)分?jǐn)?shù)，DOVER-Technical模型評(píng)估圖像質(zhì)量，只有同時(shí)超過(guò)4.0分的樣本才會(huì)被保留。統(tǒng)計(jì)結(jié)果顯示，約77%的樣本達(dá)到了美學(xué)分?jǐn)?shù)4.0以上的標(biāo)準(zhǔn)，約81%的樣本在圖像質(zhì)量方面超過(guò)了4.0分，這確保了數(shù)據(jù)集的整體高質(zhì)量水平。

### 八、未來(lái)展望與影響意義

Droplet3D的成功驗(yàn)證了"從視頻學(xué)習(xí)3D"這一創(chuàng)新范式的可行性，為3D內(nèi)容生成領(lǐng)域開(kāi)辟了新的發(fā)展方向。這種方法的核心價(jià)值在于充分利用了互聯(lián)網(wǎng)上豐富的視頻資源，解決了傳統(tǒng)3D數(shù)據(jù)稀缺的根本問(wèn)題。

從技術(shù)發(fā)展趨勢(shì)來(lái)看，視頻驅(qū)動(dòng)的3D生成方法可能會(huì)成為未來(lái)的主流方向。隨著視頻內(nèi)容的持續(xù)增長(zhǎng)和視頻理解技術(shù)的不斷進(jìn)步，這類(lèi)方法有望在數(shù)據(jù)規(guī)模、語(yǔ)義理解和生成質(zhì)量等方面繼續(xù)獲得優(yōu)勢(shì)。特別是在處理復(fù)雜場(chǎng)景和理解抽象概念方面，視頻預(yù)訓(xùn)練帶來(lái)的語(yǔ)義知識(shí)將發(fā)揮越來(lái)越重要的作用。

對(duì)于內(nèi)容創(chuàng)作產(chǎn)業(yè)而言，Droplet3D展示的能力具有重要的實(shí)踐價(jià)值。支持圖像和文本雙重輸入的特性使得創(chuàng)作者能夠更精確地控制生成結(jié)果，這種細(xì)粒度的控制能力在游戲開(kāi)發(fā)、動(dòng)畫(huà)制作、虛擬現(xiàn)實(shí)等領(lǐng)域都有廣泛的應(yīng)用前景。特別是系統(tǒng)展現(xiàn)出的場(chǎng)景級(jí)生成潛力，可能會(huì)改變傳統(tǒng)的3D場(chǎng)景構(gòu)建流程。

研究團(tuán)隊(duì)將所有資源完全開(kāi)源，包括Droplet3D-4M數(shù)據(jù)集、完整的技術(shù)框架、代碼實(shí)現(xiàn)和模型權(quán)重，這種開(kāi)放態(tài)度將有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。開(kāi)源資源的提供降低了其他研究者的入門(mén)門(mén)檻，有望催生更多創(chuàng)新應(yīng)用和技術(shù)改進(jìn)。

從更廣闊的視角來(lái)看，這項(xiàng)研究體現(xiàn)了人工智能發(fā)展中的一個(gè)重要趨勢(shì)：通過(guò)多模態(tài)學(xué)習(xí)和知識(shí)遷移來(lái)解決特定領(lǐng)域的數(shù)據(jù)稀缺問(wèn)題。這種思路不僅適用于3D生成，也可能在其他面臨類(lèi)似挑戰(zhàn)的領(lǐng)域發(fā)揮作用。

說(shuō)到底，Droplet3D不僅僅是一個(gè)技術(shù)突破，更是一個(gè)思維方式的轉(zhuǎn)變。它告訴我們，當(dāng)直接數(shù)據(jù)不足時(shí)，我們可以從相關(guān)的豐富數(shù)據(jù)中學(xué)習(xí)遷移知識(shí)，這種"曲線救國(guó)"的策略往往能夠取得意想不到的效果。對(duì)于普通用戶而言，這意味著3D內(nèi)容創(chuàng)作的門(mén)檻正在快速降低，未來(lái)我們可能只需要一張照片和幾句話，就能創(chuàng)造出專(zhuān)業(yè)級(jí)的3D作品。這種技術(shù)進(jìn)步不僅會(huì)改變內(nèi)容創(chuàng)作的方式，也會(huì)為虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和元宇宙等新興領(lǐng)域提供強(qiáng)有力的技術(shù)支撐。有興趣深入了解這項(xiàng)研究的讀者，可以訪問(wèn)完整論文獲取更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。

Q&A

Q1：Droplet3D-4M數(shù)據(jù)集有什么特別之處？為什么比其他3D數(shù)據(jù)集更厲害？

A：Droplet3D-4M包含400萬(wàn)個(gè)3D模型，每個(gè)都配有85幀360度環(huán)繞視頻和平均260詞的詳細(xì)文本描述。與其他數(shù)據(jù)集不同，它的文本描述是"多視角層次"的，會(huì)詳細(xì)說(shuō)明物體從不同角度看的變化，比如"從側(cè)面能看到背包輪廓，從背面背包完全顯露"。這就像給每個(gè)3D物體拍了紀(jì)錄片并配了專(zhuān)業(yè)解說(shuō)，比傳統(tǒng)只有簡(jiǎn)單標(biāo)簽的數(shù)據(jù)集豐富得多。

Q2：為什么要用視頻來(lái)訓(xùn)練3D生成模型？這樣做有什么好處？

A：因?yàn)?D數(shù)據(jù)太稀缺了，最大的3D數(shù)據(jù)集也只有1000萬(wàn)樣本，而圖像數(shù)據(jù)集有幾十億樣本。視頻天然包含多角度信息，一個(gè)物體旋轉(zhuǎn)的視頻實(shí)際上就是從不同視角觀察同一物體。更重要的是，視頻包含更豐富的語(yǔ)義知識(shí)，比如生成"QR碼"這種在3D數(shù)據(jù)中很少見(jiàn)但在視頻中常見(jiàn)的物體。這就像讓AI通過(guò)看電影學(xué)會(huì)了立體感知。

Q3：普通用戶可以用Droplet3D做什么？需要什么技術(shù)基礎(chǔ)嗎？

A：用戶只需提供一張圖片和文字描述就能生成3D模型。系統(tǒng)很智能，會(huì)自動(dòng)把簡(jiǎn)單描述擴(kuò)展成詳細(xì)文本，也會(huì)把任意角度的照片調(diào)整到標(biāo)準(zhǔn)視角。比如上傳一張隨手拍的熊貓照片，描述"橙色背包"，就能生成帶橙色背包的3D熊貓模型。生成的結(jié)果可以轉(zhuǎn)換成游戲用的網(wǎng)格模型或VR用的高斯涂抹格式，不需要專(zhuān)業(yè)3D建模知識(shí)。

【糾錯(cuò)】【責(zé)任編輯:三分天下庫(kù)】

深度觀察

新華全媒頭條丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部

国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线

清華北航等打造"Droplet3D"：從視頻中學(xué)會(huì)3D創(chuàng)作的AI系統(tǒng)

清華北航等打造"Droplet3D"：從視頻中學(xué)會(huì)3D創(chuàng)作的AI系統(tǒng)