機(jī)器之心報(bào)道
機(jī)器之心編輯部
香港科技大學(xué)譚平教授團(tuán)隊(duì)與地平線(Horizon Robotics)團(tuán)隊(duì)最新發(fā)布了一項(xiàng)3D 場(chǎng)景表征與大規(guī)模重建新方法 SAIL-Recon,通過(guò)錨點(diǎn)圖建立構(gòu)建場(chǎng)景全局隱式表征,突破現(xiàn)有 VGGT 基礎(chǔ)模型對(duì)于大規(guī)模視覺(jué)定位與 3D 重建的處理能力瓶頸,實(shí)現(xiàn)萬(wàn)幀級(jí)的場(chǎng)景表征抽取與定位重建,將空間智能「3D 表征與建模」前沿推向一個(gè)新的高度。該技術(shù)作為 3D 場(chǎng)景表征與重建的一個(gè)基礎(chǔ)模型,不僅可以用于任意場(chǎng)景中的大規(guī)模 3D 重建和空間漫游,也可以為機(jī)器人的 3D 空間感知、自主空間定位與導(dǎo)航提供基礎(chǔ)技術(shù)支撐。
譚平教授目前為香港科技大學(xué)電子與計(jì)算機(jī)工程系正教授,馮諾依曼人工智能研究院副院長(zhǎng),也是「香港科技大學(xué)–比亞迪具身智能聯(lián)合實(shí)驗(yàn)室」主任,長(zhǎng)期致力于 3D 空間智能與具身智能相關(guān)的技術(shù)前沿研究。
譚平教授創(chuàng)立的人工智能初創(chuàng)公司「光影煥像」致力于 3D 和空間智能的核心技術(shù)和產(chǎn)品研發(fā),打造 3D 空間智能大腦,推進(jìn)相關(guān)技術(shù)在游戲、影視和具身智能等行業(yè)場(chǎng)景的商業(yè)化應(yīng)用。
作者簡(jiǎn)介:
鄧俊源分別于2021年和2024年獲上海交通大學(xué)學(xué)士及碩士學(xué)位,現(xiàn)為香港科技大學(xué)電子與計(jì)算機(jī)工程系博士研究生,主要研究方向?yàn)槎嗄B(tài)三維定位與場(chǎng)景重建、世界模型,代表論文有NeRF-LOAM、DrivingWorld、SAIL-Recon等。
李恒現(xiàn)為香港科技大學(xué)電子與計(jì)算機(jī)工程系高年級(jí)博士研究生,主要研究方向?yàn)槿S重建與定位、生成與重建一體化等,代表論文有DIM-SLAM、SAIL-Recon等。
本文中SAIL-Recon的共同一作鄧俊源和李恒均為譚平教授在香港科技大學(xué)博士研究生。
項(xiàng)目主頁(yè):https://hkust-sail.github.io/sail-recon/論文鏈接:https://arxiv.org/abs/2508.17972代碼鏈接:https://github.com/HKUST-SAIL/sail-recon
在 3D 視覺(jué)領(lǐng)域,3D 場(chǎng)景回歸模型(如 VGGT)雖能通過(guò)輸入圖像直接預(yù)測(cè)相機(jī)位姿與三維結(jié)構(gòu),但在極端視角變化場(chǎng)景中表現(xiàn)出色的同時(shí),卻受限于大規(guī)模圖像輸入的處理能力,僅能處理幾百?gòu)垐D像進(jìn)行位姿估計(jì)和 3D 重建。為此,論文推出全新解決方案SAIL-Recon,一種增強(qiáng)型場(chǎng)景回歸網(wǎng)絡(luò),通過(guò)融合視覺(jué)定位能力,構(gòu)建專為大規(guī)模運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)設(shè)計(jì)的前饋 Transformer 架構(gòu)
技術(shù)革新亮點(diǎn)
1.全局隱式場(chǎng)景表征:使用圖像子集構(gòu)建全局表征,支持萬(wàn)幀級(jí)場(chǎng)景重建;
2.統(tǒng)一 Transformer 架構(gòu):同時(shí)處理場(chǎng)景表征抽取與定位重建任務(wù);
3.權(quán)威基準(zhǔn)領(lǐng)先性能:在 TUM-RGBD、CO3Dv2、Tanks & Temples 數(shù)據(jù)集上,相機(jī)位姿估計(jì)與新視角合成精度均顯著超越現(xiàn)有方法。
方法概述
傳統(tǒng)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)技術(shù)依賴特征匹配與增量?jī)?yōu)化,面對(duì)低紋理場(chǎng)景或重復(fù)圖案時(shí)極易失效。近年興起的場(chǎng)景回歸方法(如 DUST3R、VGGT)雖能通過(guò) Transformer 直接預(yù)測(cè)相機(jī)位姿與 3D 結(jié)構(gòu),卻因 GPU 內(nèi)存限制無(wú)法處理大規(guī)模圖像集合,限制了其應(yīng)用范圍。受傳統(tǒng)視覺(jué)重定位啟發(fā),論文提出增強(qiáng)型場(chǎng)景回歸網(wǎng)絡(luò) SAIL-Recon,通過(guò)結(jié)合視覺(jué)定位與場(chǎng)景回歸,突破大規(guī)模 3D 重建瓶頸。
場(chǎng)景回歸網(wǎng)絡(luò):從圖像到場(chǎng)景回歸
場(chǎng)景回歸網(wǎng)絡(luò)(VGGT,DUST3R)旨在從輸入圖像集合中直接預(yù)測(cè)相機(jī)位姿與三維結(jié)構(gòu)。論文方法中采用了與 VGGT 類似的 Transformer 架構(gòu),利用其強(qiáng)大的全局信息建模能力,來(lái)處理圖像間的復(fù)雜關(guān)系。具體來(lái)說(shuō),該方法將輸入圖像通過(guò) DINOv2 提取特征,然后將這些特征輸入到 Transformer 中進(jìn)行全局建模。Transformer 的自注意力機(jī)制使得網(wǎng)絡(luò)能夠捕捉圖像間的長(zhǎng)距離依賴關(guān)系,從而更好地理解場(chǎng)景的幾何結(jié)構(gòu)。經(jīng)過(guò) Transformer 處理后,該方法使用 DPT 頭來(lái)分別預(yù)測(cè)每張圖像的深度圖與場(chǎng)景坐標(biāo)圖,從而實(shí)現(xiàn)對(duì)場(chǎng)景的三維重建。同時(shí),該方法通過(guò)一個(gè)單獨(dú)的 MLP 分支來(lái)預(yù)測(cè)每張圖像的相機(jī)位姿。整個(gè)網(wǎng)絡(luò)通過(guò)聯(lián)合訓(xùn)練,使得深度圖、場(chǎng)景坐標(biāo)圖與相機(jī)位姿的預(yù)測(cè)相互促進(jìn),提高了整體的重建精度。
錨點(diǎn)圖像集構(gòu)建:子集表征全局場(chǎng)景
然而,由于 Transformer 的結(jié)構(gòu)特性,當(dāng)一次性處理所有的輸入圖片時(shí),GPU 的顯存會(huì)隨著圖片數(shù)目的增加而成倍的增長(zhǎng)。當(dāng)場(chǎng)景中的圖像擴(kuò)展到數(shù)千的規(guī)模時(shí),直接處理全部圖像(如 1000 + 張)會(huì)導(dǎo)致 GPU 顯存爆炸。為此,論文提出使用圖像子集來(lái)構(gòu)建全局隱式場(chǎng)景表征的新方法。具體來(lái)說(shuō),該方法從輸入圖像集合中選擇一小部分圖像作為錨點(diǎn)圖像集(Anchor Image Set),且選出的圖像集也能夠代表整個(gè)場(chǎng)景的多樣性和結(jié)構(gòu)信息。通過(guò)這種方式,該方法可以在不犧牲場(chǎng)景信息的前提下,大幅減少需要處理的圖像數(shù)量,從而降低計(jì)算復(fù)雜度和內(nèi)存需求。更具體的來(lái)說(shuō),該方法從全量圖像中篩選出 50-100 張代表性錨點(diǎn)圖像作為 Transformer 的輸入,并采用均勻采樣方式進(jìn)行篩選以有效避免對(duì)相機(jī)以及對(duì)場(chǎng)景幾何做出假設(shè)。這種方法能夠使用圖像子集構(gòu)建用于全局場(chǎng)景隱式表達(dá),為后續(xù)的定位與重建任務(wù)提供堅(jiān)實(shí)基礎(chǔ)。
全局隱式場(chǎng)景表征:漸進(jìn)式 2D-3D 編碼
通過(guò)錨點(diǎn)圖像集,該方法能夠構(gòu)建一個(gè)全局隱式場(chǎng)景表征。一種最直接的思路是直接使用 Transformer 的最終層的輸出特征作為場(chǎng)景表示。因?yàn)樵搶拥?feature 經(jīng)過(guò)多層的注意力交互,已經(jīng)全局的場(chǎng)景幾何結(jié)構(gòu)。之前的一些工作,如 CUT3R,SLAM3R 和 SPANN3R,均使用類似的思路。但論文實(shí)驗(yàn)發(fā)現(xiàn),由于 Transformer 的最終層特征通常只能用于表示 3D 的幾何信息,與需要恢復(fù)相機(jī)位姿的 query image 的 2D 特征存在很大的差別,因此此類方法的效果通常較差。論文作者注意到場(chǎng)景回歸會(huì)逐步將 2D 圖像特征轉(zhuǎn)換為 3D 場(chǎng)景表示,因此在論文中提出了可以通過(guò)提取 Transformer 所有注意力層的中間特征,用于表達(dá)特定圖像從 2D 圖像特征到 3D 結(jié)構(gòu)的轉(zhuǎn)換的新方法。具體來(lái)說(shuō),該方法在 Transformer 的中間層提取特征,并通過(guò)一個(gè)下采樣的機(jī)制,將這些特征用于整個(gè)場(chǎng)景的表達(dá)。這樣做的好處是這種場(chǎng)景表達(dá)保留了每一個(gè)圖像塊從 2D 到 3D 的變化,能夠自然的適應(yīng)于圖像重定位的任務(wù)。當(dāng)輸入了查詢圖像的 2D 信息,該方法能夠?qū)⒗?2D-3D 的特征,將查詢圖像注冊(cè)到對(duì)應(yīng)的全局表達(dá)上。
視覺(jué)定位與重建:基于視覺(jué)定位的場(chǎng)景回歸
在獲得全局隱式場(chǎng)景表征后,論文采用與場(chǎng)景回歸相同的網(wǎng)絡(luò),進(jìn)行視覺(jué)定位與重建。具體來(lái)說(shuō),該方法將查詢圖像通過(guò) DINOv2 提取特征,并將其與全局隱式場(chǎng)景表征在 Transformer 中的每一層進(jìn)行注意力交互。在通過(guò)這種方式,該方法能夠在 Transformer 的輸入層附近使用 2D 圖像特征進(jìn)行注意力交互,實(shí)現(xiàn)類似特征匹配的效果。在 Transformer 的后續(xù)層中,方法使用 3D 的特征層進(jìn)行注意力交互,從而將恢復(fù)出查詢圖像相對(duì)于全局隱式場(chǎng)景表達(dá)的相機(jī)位置與幾何結(jié)構(gòu)。為了避免查詢圖像對(duì)場(chǎng)景表達(dá)進(jìn)行修改,該方法修改了 Transformer 中全局注意力層的行為,在定位的過(guò)程中,查詢圖像的特征只會(huì)與隱式表達(dá)的特征進(jìn)行交互,而場(chǎng)景表達(dá)的特征只會(huì)與其本身發(fā)生交互。在得到了查詢圖像的最終特征后,該方法使用一個(gè)單獨(dú)的 MLP 分支來(lái)預(yù)測(cè)查詢圖像的相機(jī)位姿,同時(shí)使用 DPT 頭來(lái)預(yù)測(cè)查詢圖像的深度圖與場(chǎng)景坐標(biāo)圖。
實(shí)驗(yàn)結(jié)果
論文在多個(gè)權(quán)威基準(zhǔn)數(shù)據(jù)集上對(duì) SAIL-Recon 方法進(jìn)行了評(píng)估,包括 TUM-RGBD、CO3Dv2 和 Tanks & Temples。實(shí)驗(yàn)結(jié)果顯示,SAIL-Recon 在相機(jī)位姿估計(jì)與新視角合成精度方面均顯著優(yōu)于現(xiàn)有方法
相機(jī)位姿
論文在 TUM-RGBD 和 Tanks and Temples 數(shù)據(jù)集上評(píng)估了 SAIL-Recon 的相機(jī)位姿估計(jì)性能。結(jié)果表明,SAIL-Recon 在這兩個(gè)數(shù)據(jù)集上均取得了優(yōu)異的表現(xiàn),顯著優(yōu)于傳統(tǒng) SfM 方法和其他神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的 SfM 方法。
在 Tanks and Temples 數(shù)據(jù)集上,SAIL-Recon 在所有場(chǎng)景中均表現(xiàn)出色,在所有非優(yōu)化的方法中,取得了最強(qiáng)的性能。而 VGGT 因?yàn)闊o(wú)法處理大規(guī)模圖像集合,在該數(shù)據(jù)集上無(wú)法運(yùn)行。其他的 3R 方法精度均不如 SAIL-Recon。在優(yōu)化的方法中,SAIL-Recon 的表現(xiàn)也非常接近最優(yōu)的方法 GLOMAP。
在 TUM-RGBD 數(shù)據(jù)集上,SAIL-Recon 同樣表現(xiàn)出色,在給定的數(shù)千幀圖像中,效果與現(xiàn)有的 SLAM 方案接近。需要注意的是 SAIL-Recon 是一個(gè)離線重建方法,并沒(méi)有利用時(shí)序上的連續(xù)性信息。
新視角合成
由于傳統(tǒng)相機(jī)位姿的數(shù)據(jù)集提供的相機(jī)位姿通常是由傳統(tǒng)的 SfM 或 SLAM 方法計(jì)算得到的,因此這些相機(jī)位姿本身可能存在一定的誤差。為了更客觀地評(píng)估 SAIL-Recon 的性能,論文使用了與 ACE0 一致的新視角合成指標(biāo) PSNR 來(lái)評(píng)估相機(jī)位姿的準(zhǔn)確度。在訓(xùn)練 NeRF 用于新視角合成的過(guò)程中,如果訓(xùn)練圖像的相機(jī)位姿存在誤差,那么 NeRF 的合成效果會(huì)受到影響,PSNR 值也會(huì)降低。如果測(cè)試圖像的相機(jī)位姿準(zhǔn)確,則合成的圖像 PSNR 值會(huì)更高。因此,PSNR 值可以作為評(píng)估相機(jī)位姿準(zhǔn)確度的一個(gè)指標(biāo)。
在 Tanks and Temples 數(shù)據(jù)集上,SAIL-Recon 在新視角合成的 PSNR 指標(biāo)上也表現(xiàn)出色,顯著優(yōu)于其他方法。特別是在大規(guī)模場(chǎng)景中,SAIL-Recon 能夠有效地處理數(shù)千幀圖像,取得了遠(yuǎn)超現(xiàn)有方法的 PSNR 值。其中 VGGT 與其他 3R 方法均無(wú)法處理大規(guī)模圖像集合,因此無(wú)法在該數(shù)據(jù)集上運(yùn)行。更重要的是,SAIL-Recon 只需要幾分鐘的時(shí)間就能得到 SOTA 的效果,在速度上遠(yuǎn)超之前的方法。
在新視角的可視化上也能顯著發(fā)現(xiàn) SAIL-Recon 的優(yōu)勢(shì)。下圖展示了 Tanks and Temples 數(shù)據(jù)集中新視角合成結(jié)果??梢钥吹剑琒AIL-Recon 的圖像質(zhì)量明顯高于 ACE0,展示了 SAIL-Recon 在處理大規(guī)模場(chǎng)景時(shí)相機(jī)的準(zhǔn)確度。
總結(jié)
本文提出了 SAIL-Recon,一種結(jié)合視覺(jué)定位與場(chǎng)景回歸的增強(qiáng)型場(chǎng)景回歸網(wǎng)絡(luò),成功突破了大規(guī)模 3D 重建的瓶頸。通過(guò)使用圖像子集構(gòu)建全局隱式場(chǎng)景表征,并利用 Transformer 同時(shí)進(jìn)行隱式場(chǎng)景表達(dá)抽取與視覺(jué)定位,SAIL-Recon 能夠高效地處理包含上萬(wàn)幀圖像的場(chǎng)景。在多個(gè)權(quán)威基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,SAIL-Recon 在相機(jī)位姿估計(jì)與新視角合成精度方面均顯著優(yōu)于現(xiàn)有方法,展示了其在大規(guī)模 3D 重建領(lǐng)域的巨大潛力。未來(lái),論文計(jì)劃進(jìn)一步優(yōu)化 SAIL-Recon 的架構(gòu)與訓(xùn)練策略,以提升其在更復(fù)雜場(chǎng)景中的表現(xiàn),并挖掘其在具身智能導(dǎo)航和感知中的應(yīng)用潛力。
視頻鏈接:https://mp.weixin.qq.com/s/5CZFIhy-mAia8gIw0SsDug
SAIL-Recon 與現(xiàn)有方法的 3D 重建結(jié)果對(duì)比