一項(xiàng)令人興奮的技術(shù)突破正在改變我們創(chuàng)建3D內(nèi)容的方式。由IEIT Systems、南開(kāi)大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)聯(lián)合開(kāi)發(fā)的"Droplet3D"系統(tǒng),就像是給AI裝上了一雙"會(huì)看視頻學(xué)3D"的眼睛。這項(xiàng)研究發(fā)表于2025年8月,感興趣的讀者可以通過(guò)arXiv:2508.20470v1訪問(wèn)完整論文。
想象一下,如果你看過(guò)無(wú)數(shù)部電影和視頻,是不是對(duì)物體在不同角度下的樣子有了直觀的理解?比如,你知道一個(gè)蘋(píng)果從側(cè)面看是什么形狀,從上面看又是什么樣子。Droplet3D就是基于這樣的思路工作的——它通過(guò)觀看大量視頻來(lái)學(xué)習(xí)物體的三維特征,然后能夠根據(jù)一張圖片和文字描述,創(chuàng)造出完整的3D模型。
這個(gè)系統(tǒng)最神奇的地方在于,它不僅僅依賴(lài)傳統(tǒng)的3D數(shù)據(jù)進(jìn)行學(xué)習(xí),而是巧妙地利用了互聯(lián)網(wǎng)上豐富的視頻資源。就像一個(gè)勤奮的學(xué)生通過(guò)觀看各種角度的教學(xué)視頻來(lái)理解立體幾何一樣,Droplet3D通過(guò)分析視頻中物體的多角度展示,掌握了創(chuàng)建3D內(nèi)容的訣竅。
### 一、從數(shù)據(jù)稀缺到視頻賦能:解決3D創(chuàng)作的根本難題
在傳統(tǒng)的3D內(nèi)容創(chuàng)作領(lǐng)域,研究人員面臨著一個(gè)棘手的問(wèn)題:3D數(shù)據(jù)太少了。這就像是想要教一個(gè)孩子認(rèn)識(shí)動(dòng)物,但只有寥寥幾張動(dòng)物圖片,而沒(méi)有足夠多樣化的素材供其學(xué)習(xí)。目前最大的開(kāi)源3D數(shù)據(jù)集Objaverse-XL也僅包含1000萬(wàn)個(gè)樣本,這相比于擁有數(shù)十億樣本的圖像-文本數(shù)據(jù)集來(lái)說(shuō),簡(jiǎn)直是杯水車(chē)薪。
這種數(shù)據(jù)稀缺帶來(lái)了兩個(gè)嚴(yán)重后果。首先,有限的3D數(shù)據(jù)覆蓋范圍不夠全面,就像用有限的食材很難烹飪出豐富多樣的菜肴一樣,現(xiàn)有的3D生成模型難以捕捉真實(shí)世界的全貌。其次,相比于文本和圖像等其他媒體形式,3D生成模型學(xué)到的語(yǔ)義知識(shí)相對(duì)貧乏,這限制了它們生成多樣化內(nèi)容的能力。
研究團(tuán)隊(duì)意識(shí)到,網(wǎng)絡(luò)上豐富的視頻資源可能是解決這個(gè)問(wèn)題的關(guān)鍵。視頻本身就包含了物體從多個(gè)角度的信息,這種"天然的3D特性"為訓(xùn)練更強(qiáng)大的3D生成模型提供了新的可能。當(dāng)你觀看一個(gè)物體旋轉(zhuǎn)的視頻時(shí),你實(shí)際上是在從不同視角觀察同一個(gè)物體,這正是3D建模所需要的核心信息。
更重要的是,視頻數(shù)據(jù)的規(guī)模優(yōu)勢(shì)使得模型能夠?qū)W習(xí)到比傳統(tǒng)3D數(shù)據(jù)更廣泛的語(yǔ)義知識(shí)。比如,當(dāng)模型需要生成一個(gè)"QR碼"這樣的物體時(shí),雖然這類(lèi)物體在3D數(shù)據(jù)集中很少見(jiàn),但在視頻數(shù)據(jù)中卻相對(duì)常見(jiàn)。通過(guò)視頻學(xué)習(xí),模型能夠理解這些概念并成功生成相應(yīng)的3D內(nèi)容。
### 二、構(gòu)建史上最大多視角3D數(shù)據(jù)集:Droplet3D-4M
為了將"從視頻學(xué)3D"的想法變成現(xiàn)實(shí),研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為Droplet3D-4M的龐大數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含400萬(wàn)個(gè)3D模型,每個(gè)模型都配備了85幀的360度環(huán)繞視頻和平均260個(gè)單詞的詳細(xì)文本描述。這就像是為每個(gè)3D物體拍攝了一部"紀(jì)錄片",從各個(gè)角度詳細(xì)記錄其外觀特征。
整個(gè)數(shù)據(jù)集的構(gòu)建過(guò)程就像是一個(gè)精心設(shè)計(jì)的制片工廠。研究團(tuán)隊(duì)首先從Objaverse-XL收集了630萬(wàn)個(gè)原始3D模型,然后采用了一套巧妙的"粗渲染-篩選-精渲染"流程。這種方法就像是電影制作中的"試拍-審查-正式拍攝"過(guò)程,既保證了質(zhì)量,又大大提高了效率,將計(jì)算開(kāi)銷(xiāo)降低了4到7倍。
在渲染階段,每個(gè)3D模型被放置在一個(gè)虛擬的攝影棚中,攝像機(jī)沿著一個(gè)固定半徑的圓形軌跡進(jìn)行拍攝,確保相鄰幀之間的角度差距嚴(yán)格控制在5度以?xún)?nèi)。這種精確的設(shè)置保證了生成視頻的連貫性,就像專(zhuān)業(yè)攝影師在拍攝產(chǎn)品展示視頻時(shí)需要保持穩(wěn)定的運(yùn)鏡速度一樣。
數(shù)據(jù)集最獨(dú)特的創(chuàng)新在于其文本描述系統(tǒng)。與傳統(tǒng)數(shù)據(jù)集只提供簡(jiǎn)單的物體標(biāo)簽不同,Droplet3D-4M為每個(gè)物體提供了多視角層次的詳細(xì)描述。這些描述不僅包含物體的整體外觀特征,還特別注明了從不同角度觀察時(shí)的變化。比如,在描述一個(gè)背著背包的卡通人物時(shí),文本會(huì)詳細(xì)說(shuō)明"從側(cè)面看可以看到背包的輪廓,從背面看背包完全顯露"等視角相關(guān)的信息。
為了生成這些高質(zhì)量的文本描述,研究團(tuán)隊(duì)采用了一套創(chuàng)新的訓(xùn)練方法。他們首先使用監(jiān)督學(xué)習(xí)對(duì)多模態(tài)大語(yǔ)言模型進(jìn)行微調(diào),然后采用GRPO(Group Relative Policy Optimization)強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)一步優(yōu)化。這個(gè)過(guò)程就像是訓(xùn)練一個(gè)專(zhuān)業(yè)的藝術(shù)品解說(shuō)員,不僅要求其能準(zhǔn)確描述物體的基本特征,還要能夠詳細(xì)解釋從不同角度觀察時(shí)的視覺(jué)變化。
### 三、Droplet3D技術(shù)架構(gòu):繼承視頻模型的智慧
Droplet3D系統(tǒng)的核心理念是繼承預(yù)訓(xùn)練視頻生成模型的強(qiáng)大能力,然后將這些能力遷移到3D內(nèi)容生成任務(wù)上。這就像是讓一個(gè)已經(jīng)掌握了繪畫(huà)技巧的藝術(shù)家去學(xué)習(xí)雕塑,雖然媒介不同,但底層的空間感知和創(chuàng)作能力是可以互相借鑒的。
系統(tǒng)選擇DropletVideo作為基礎(chǔ)模型并非偶然。DropletVideo是一個(gè)專(zhuān)門(mén)考慮時(shí)空一致性的視頻生成模型,它在訓(xùn)練過(guò)程中接觸了大量包含空間一致性約束的視頻片段,比如街景漫游或人物環(huán)繞拍攝等。這些特性使其天然具備了3D一致性的潛力,就像一個(gè)經(jīng)常觀看旋轉(zhuǎn)展示視頻的人會(huì)對(duì)物體的立體結(jié)構(gòu)有更好的直覺(jué)一樣。
在技術(shù)架構(gòu)上,Droplet3D包含兩個(gè)核心組件:3D因果變分自編碼器(3D Causal VAE)和3D模態(tài)專(zhuān)家變換器。3D因果VAE的作用就像是一個(gè)智能的視頻壓縮器,它能夠?qū)?5幀圖像的環(huán)繞視頻壓縮成緊湊的潛在空間表示,同時(shí)保持視頻的時(shí)間連續(xù)性和空間一致性。這種設(shè)計(jì)確保了生成的視頻不會(huì)出現(xiàn)閃爍或不連貫的問(wèn)題。
3D模態(tài)專(zhuān)家變換器則負(fù)責(zé)融合文本和視覺(jué)信息。這個(gè)組件使用了3D全注意力機(jī)制,能夠同時(shí)處理文本輸入和視頻輸入。相比于傳統(tǒng)的解耦方法,這種集成策略能夠更好地捕捉視頻中的動(dòng)態(tài)變化,并增強(qiáng)生成內(nèi)容在語(yǔ)義一致性和多樣性方面的表現(xiàn)。
### 四、用戶體驗(yàn)優(yōu)化:讓任意輸入變得可能
為了讓Droplet3D能夠處理來(lái)自真實(shí)用戶的各種輸入,研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)關(guān)鍵的預(yù)處理模塊:文本重寫(xiě)模塊和圖像視角對(duì)齊模塊。
文本重寫(xiě)模塊就像是一個(gè)貼心的翻譯官,它能夠?qū)⒂脩籼峁┑暮?jiǎn)單文本描述轉(zhuǎn)換成符合訓(xùn)練數(shù)據(jù)分布的詳細(xì)描述。比如,當(dāng)用戶只輸入"一個(gè)卡通熊貓宇航員"時(shí),系統(tǒng)會(huì)自動(dòng)擴(kuò)展為包含外觀細(xì)節(jié)、材質(zhì)描述和多視角變化的完整敘述。這個(gè)模塊通過(guò)LoRA技術(shù)對(duì)開(kāi)源語(yǔ)言模型進(jìn)行微調(diào),使用約500個(gè)領(lǐng)域內(nèi)樣本就能達(dá)到理想的效果。
圖像視角對(duì)齊模塊解決了另一個(gè)實(shí)際問(wèn)題:用戶上傳的圖像可能來(lái)自任意角度。傳統(tǒng)的3D生成方法通常只有在提供標(biāo)準(zhǔn)視角(如正面、側(cè)面等)時(shí)才能達(dá)到最佳效果,這對(duì)用戶來(lái)說(shuō)是一個(gè)很大的限制。研究團(tuán)隊(duì)基于FLUX.1-Kontext-dev模型,通過(guò)LoRA微調(diào)技術(shù)訓(xùn)練了一個(gè)視角對(duì)齊模型。這個(gè)模型能夠?qū)⑷我饨嵌扰臄z的圖像轉(zhuǎn)換為標(biāo)準(zhǔn)的正面、左側(cè)、右側(cè)或背面視角,就像是一個(gè)智能的"角度校正器"。
這兩個(gè)模塊的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對(duì)用戶體驗(yàn)的深入思考。它們不僅解決了技術(shù)上的挑戰(zhàn),更重要的是降低了普通用戶使用系統(tǒng)的門(mén)檻,讓3D內(nèi)容創(chuàng)作變得更加便捷和直觀。
### 五、實(shí)驗(yàn)驗(yàn)證:超越傳統(tǒng)方法的全面表現(xiàn)
研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,結(jié)果表明Droplet3D在多個(gè)指標(biāo)上都顯著超越了現(xiàn)有方法。在與LGM和MVControl等同時(shí)支持圖像和文本輸入的3D生成方法比較中,Droplet3D在PSNR、LPIPS、MSE和CLIP-S等關(guān)鍵指標(biāo)上都取得了最佳表現(xiàn)。
特別值得注意的是,Droplet3D在CLIP-S指標(biāo)上的表現(xiàn)尤為出色,達(dá)到了0.866的高分,遠(yuǎn)超其他方法。CLIP-S指標(biāo)衡量的是生成內(nèi)容與文本描述之間的語(yǔ)義匹配程度,這一結(jié)果證明了視頻預(yù)訓(xùn)練在增強(qiáng)模型語(yǔ)義理解能力方面的有效性。研究團(tuán)隊(duì)將這一優(yōu)勢(shì)歸因于T5文本編碼器的使用以及在大規(guī)模視頻數(shù)據(jù)上的預(yù)訓(xùn)練。
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各個(gè)組件的重要性。對(duì)比實(shí)驗(yàn)顯示,相比于原始的DropletVideo模型,經(jīng)過(guò)Droplet3D-4M數(shù)據(jù)集微調(diào)后的模型在空間一致性方面有了顯著提升。這就像是一個(gè)原本只會(huì)畫(huà)2D畫(huà)的畫(huà)家,通過(guò)專(zhuān)門(mén)的立體繪畫(huà)訓(xùn)練后,能夠創(chuàng)作出更加立體和一致的作品。
研究還對(duì)比了不同視頻生成模型作為基礎(chǔ)架構(gòu)的效果。結(jié)果顯示,DropletVideo確實(shí)比同等規(guī)模的其他模型(如Cogvideox-Fun)更適合作為3D生成的基礎(chǔ),甚至與參數(shù)量更大的模型(如Wan2.1-I2V-14B和Step-Video-TI2V-30B)相比也毫不遜色。這驗(yàn)證了選擇具有內(nèi)在空間一致性能力的視頻模型作為基礎(chǔ)的重要性。
### 六、創(chuàng)新應(yīng)用展示:從可控創(chuàng)作到場(chǎng)景生成
Droplet3D展現(xiàn)出了多種令人印象深刻的應(yīng)用能力,其中最突出的是基于語(yǔ)言提示的可控創(chuàng)作功能。這種能力就像是給了用戶一支魔法畫(huà)筆,能夠根據(jù)文字描述精確地修改3D對(duì)象的特定部分。
在一個(gè)經(jīng)典的演示案例中,研究團(tuán)隊(duì)展示了如何基于同一張熊貓宇航員的圖像,通過(guò)不同的文字描述生成具有不同背包的3D模型。當(dāng)描述中提到"太空背包"時(shí),生成的模型會(huì)顯示一個(gè)科技感十足的裝備;當(dāng)提到"橙色背包"時(shí),背部會(huì)出現(xiàn)一個(gè)橙色的實(shí)驗(yàn)裝備;而當(dāng)描述為"彩虹色能量球"時(shí),則會(huì)生成一個(gè)裝有發(fā)光能量核心的透明背包。這種精細(xì)的控制能力在傳統(tǒng)的3D生成方法中是很難實(shí)現(xiàn)的。
系統(tǒng)還表現(xiàn)出了強(qiáng)大的風(fēng)格化輸入處理能力。即使訓(xùn)練數(shù)據(jù)完全基于真實(shí)感渲染,Droplet3D仍然能夠很好地處理手繪草圖、漫畫(huà)風(fēng)格圖像等風(fēng)格化輸入。這種泛化能力可能源自其視頻預(yù)訓(xùn)練階段接觸的豐富視覺(jué)內(nèi)容,使模型具備了更強(qiáng)的通用視覺(jué)理解能力。
更令人興奮的是,Droplet3D展現(xiàn)出了場(chǎng)景級(jí)3D內(nèi)容生成的潛力。雖然訓(xùn)練數(shù)據(jù)Droplet3D-4M只包含物體級(jí)別的樣本,但系統(tǒng)能夠處理包含復(fù)雜場(chǎng)景的輸入,如城堡莊園、雷電島嶼、夜間河畔和太空站內(nèi)部等。這種能力完全繼承自DropletVideo的視頻生成能力,展現(xiàn)了視頻驅(qū)動(dòng)方法的獨(dú)特優(yōu)勢(shì)。
在實(shí)際應(yīng)用方面,生成的多視角圖像可以進(jìn)一步轉(zhuǎn)換為多種3D表示形式。研究團(tuán)隊(duì)展示了基于Hunyuan3D-2的紋理網(wǎng)格生成結(jié)果,以及基于3D高斯涂抹技術(shù)的點(diǎn)云重建效果。這些下游應(yīng)用證明了系統(tǒng)生成內(nèi)容的實(shí)用性和工業(yè)級(jí)質(zhì)量。
### 七、技術(shù)細(xì)節(jié)與創(chuàng)新突破
Droplet3D的成功離不開(kāi)一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。在模型訓(xùn)練方面,系統(tǒng)采用了DropletVideo-5B模型作為權(quán)重初始化,使用t5-v1_1-xxl作為文本編碼器,并將最大token長(zhǎng)度從226擴(kuò)展到400,以適應(yīng)更長(zhǎng)的文本描述。這種擴(kuò)展就像是給翻譯官配備了更大的詞匯庫(kù),能夠處理更復(fù)雜和詳細(xì)的描述內(nèi)容。
模型架構(gòu)基于MMDiT系列,包含42個(gè)層,每層48個(gè)注意力頭,每個(gè)頭的維度為64。時(shí)間步嵌入維度設(shè)置為512。在優(yōu)化方面,使用Adam優(yōu)化器,權(quán)重衰減為3×10^-2,學(xué)習(xí)率為2×10^-5。采樣幀數(shù)固定為85幀,使用bfloat16混合精度訓(xùn)練方法。
在推理階段,分類(lèi)器無(wú)關(guān)引導(dǎo)尺度設(shè)置為6.5,以增強(qiáng)生成環(huán)繞視頻的運(yùn)動(dòng)平滑性。當(dāng)在Droplet3D-4M數(shù)據(jù)集上訓(xùn)練時(shí),模型支持512分辨率的圖像生成。這些參數(shù)的精心調(diào)節(jié)確保了生成內(nèi)容的質(zhì)量和一致性。
對(duì)于正則視角對(duì)齊訓(xùn)練,LoRA的網(wǎng)絡(luò)維度設(shè)置為128,學(xué)習(xí)率為1e-4,使用AdamW8bit優(yōu)化器。這種輕量級(jí)的微調(diào)方法既保證了效果,又控制了計(jì)算成本。
在數(shù)據(jù)質(zhì)量控制方面,研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。使用LAION美學(xué)模型計(jì)算美學(xué)分?jǐn)?shù),DOVER-Technical模型評(píng)估圖像質(zhì)量,只有同時(shí)超過(guò)4.0分的樣本才會(huì)被保留。統(tǒng)計(jì)結(jié)果顯示,約77%的樣本達(dá)到了美學(xué)分?jǐn)?shù)4.0以上的標(biāo)準(zhǔn),約81%的樣本在圖像質(zhì)量方面超過(guò)了4.0分,這確保了數(shù)據(jù)集的整體高質(zhì)量水平。
### 八、未來(lái)展望與影響意義
Droplet3D的成功驗(yàn)證了"從視頻學(xué)習(xí)3D"這一創(chuàng)新范式的可行性,為3D內(nèi)容生成領(lǐng)域開(kāi)辟了新的發(fā)展方向。這種方法的核心價(jià)值在于充分利用了互聯(lián)網(wǎng)上豐富的視頻資源,解決了傳統(tǒng)3D數(shù)據(jù)稀缺的根本問(wèn)題。
從技術(shù)發(fā)展趨勢(shì)來(lái)看,視頻驅(qū)動(dòng)的3D生成方法可能會(huì)成為未來(lái)的主流方向。隨著視頻內(nèi)容的持續(xù)增長(zhǎng)和視頻理解技術(shù)的不斷進(jìn)步,這類(lèi)方法有望在數(shù)據(jù)規(guī)模、語(yǔ)義理解和生成質(zhì)量等方面繼續(xù)獲得優(yōu)勢(shì)。特別是在處理復(fù)雜場(chǎng)景和理解抽象概念方面,視頻預(yù)訓(xùn)練帶來(lái)的語(yǔ)義知識(shí)將發(fā)揮越來(lái)越重要的作用。
對(duì)于內(nèi)容創(chuàng)作產(chǎn)業(yè)而言,Droplet3D展示的能力具有重要的實(shí)踐價(jià)值。支持圖像和文本雙重輸入的特性使得創(chuàng)作者能夠更精確地控制生成結(jié)果,這種細(xì)粒度的控制能力在游戲開(kāi)發(fā)、動(dòng)畫(huà)制作、虛擬現(xiàn)實(shí)等領(lǐng)域都有廣泛的應(yīng)用前景。特別是系統(tǒng)展現(xiàn)出的場(chǎng)景級(jí)生成潛力,可能會(huì)改變傳統(tǒng)的3D場(chǎng)景構(gòu)建流程。
研究團(tuán)隊(duì)將所有資源完全開(kāi)源,包括Droplet3D-4M數(shù)據(jù)集、完整的技術(shù)框架、代碼實(shí)現(xiàn)和模型權(quán)重,這種開(kāi)放態(tài)度將有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。開(kāi)源資源的提供降低了其他研究者的入門(mén)門(mén)檻,有望催生更多創(chuàng)新應(yīng)用和技術(shù)改進(jìn)。
從更廣闊的視角來(lái)看,這項(xiàng)研究體現(xiàn)了人工智能發(fā)展中的一個(gè)重要趨勢(shì):通過(guò)多模態(tài)學(xué)習(xí)和知識(shí)遷移來(lái)解決特定領(lǐng)域的數(shù)據(jù)稀缺問(wèn)題。這種思路不僅適用于3D生成,也可能在其他面臨類(lèi)似挑戰(zhàn)的領(lǐng)域發(fā)揮作用。
說(shuō)到底,Droplet3D不僅僅是一個(gè)技術(shù)突破,更是一個(gè)思維方式的轉(zhuǎn)變。它告訴我們,當(dāng)直接數(shù)據(jù)不足時(shí),我們可以從相關(guān)的豐富數(shù)據(jù)中學(xué)習(xí)遷移知識(shí),這種"曲線救國(guó)"的策略往往能夠取得意想不到的效果。對(duì)于普通用戶而言,這意味著3D內(nèi)容創(chuàng)作的門(mén)檻正在快速降低,未來(lái)我們可能只需要一張照片和幾句話,就能創(chuàng)造出專(zhuān)業(yè)級(jí)的3D作品。這種技術(shù)進(jìn)步不僅會(huì)改變內(nèi)容創(chuàng)作的方式,也會(huì)為虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和元宇宙等新興領(lǐng)域提供強(qiáng)有力的技術(shù)支撐。有興趣深入了解這項(xiàng)研究的讀者,可以訪問(wèn)完整論文獲取更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果。
Q&A
Q1:Droplet3D-4M數(shù)據(jù)集有什么特別之處?為什么比其他3D數(shù)據(jù)集更厲害?
A:Droplet3D-4M包含400萬(wàn)個(gè)3D模型,每個(gè)都配有85幀360度環(huán)繞視頻和平均260詞的詳細(xì)文本描述。與其他數(shù)據(jù)集不同,它的文本描述是"多視角層次"的,會(huì)詳細(xì)說(shuō)明物體從不同角度看的變化,比如"從側(cè)面能看到背包輪廓,從背面背包完全顯露"。這就像給每個(gè)3D物體拍了紀(jì)錄片并配了專(zhuān)業(yè)解說(shuō),比傳統(tǒng)只有簡(jiǎn)單標(biāo)簽的數(shù)據(jù)集豐富得多。
Q2:為什么要用視頻來(lái)訓(xùn)練3D生成模型?這樣做有什么好處?
A:因?yàn)?D數(shù)據(jù)太稀缺了,最大的3D數(shù)據(jù)集也只有1000萬(wàn)樣本,而圖像數(shù)據(jù)集有幾十億樣本。視頻天然包含多角度信息,一個(gè)物體旋轉(zhuǎn)的視頻實(shí)際上就是從不同視角觀察同一物體。更重要的是,視頻包含更豐富的語(yǔ)義知識(shí),比如生成"QR碼"這種在3D數(shù)據(jù)中很少見(jiàn)但在視頻中常見(jiàn)的物體。這就像讓AI通過(guò)看電影學(xué)會(huì)了立體感知。
Q3:普通用戶可以用Droplet3D做什么?需要什么技術(shù)基礎(chǔ)嗎?
A:用戶只需提供一張圖片和文字描述就能生成3D模型。系統(tǒng)很智能,會(huì)自動(dòng)把簡(jiǎn)單描述擴(kuò)展成詳細(xì)文本,也會(huì)把任意角度的照片調(diào)整到標(biāo)準(zhǔn)視角。比如上傳一張隨手拍的熊貓照片,描述"橙色背包",就能生成帶橙色背包的3D熊貓模型。生成的結(jié)果可以轉(zhuǎn)換成游戲用的網(wǎng)格模型或VR用的高斯涂抹格式,不需要專(zhuān)業(yè)3D建模知識(shí)。
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部
- 特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部丨特朗普將美國(guó)國(guó)防部更名為戰(zhàn)爭(zhēng)部