Next Gen
歡迎來(lái)到“Next Gen”。人工智能的邊界每日都在被拓展,一群富有遠(yuǎn)見(jiàn)卓識(shí)的青年學(xué)者正站在浪潮之巔。我們追蹤并報(bào)道這些 AI 領(lǐng)域最具潛力的明日之星,展現(xiàn)他們?cè)诳蒲星把氐耐黄菩怨ぷ鳎约皩?duì)未來(lái)智能時(shí)代的獨(dú)到見(jiàn)解。他們是誰(shuí)?他們?nèi)绾嗡伎迹克麄冇謱?AI 帶向何方?與我們一同發(fā)現(xiàn)那些正在定義未來(lái)的 AI 新生代。
“其實(shí)最開(kāi)始選擇 AI,是因?yàn)橄胱龈袆?shì)頭的新興方向?!崩罹脯幓貞浧鸨究七x專業(yè)時(shí)的考慮。在 15 歲進(jìn)入西交少年班后,她原本也考慮過(guò)“更穩(wěn)妥”的方向,比如電氣工程。這個(gè)專業(yè)在國(guó)內(nèi)排名靠前,就業(yè)路徑清晰,甚至可以直接進(jìn)入大型國(guó)企。然而,她很快放棄了這一選擇。她直言:“那樣的研究空間可能已經(jīng)接近飽和,能做出的提升有限?!庇谑?,她最終選擇了在當(dāng)時(shí)還尚未完全大熱的人工智能。對(duì)她而言,這是一個(gè)既冒險(xiǎn)又現(xiàn)實(shí)的決定——冒險(xiǎn)在于人工智能研究更新迭代太快,競(jìng)爭(zhēng)激烈;現(xiàn)實(shí)在于它能真正改變生產(chǎn)力,帶來(lái)直接價(jià)值。
圖丨李靖瑤(來(lái)源:李靖瑤)
21 歲時(shí),她進(jìn)入香港中文大學(xué)攻讀博士學(xué)位,師從計(jì)算機(jī)視覺(jué)專家賈佳亞教授。不久后便迎來(lái)大語(yǔ)言模型(Large Language Models, LLMs)迅速崛起的階段。她敏銳地意識(shí)到,研究如果不能與大趨勢(shì)銜接,往往難以持續(xù)。也正是在這一時(shí)期,她陸續(xù)以第一作者身份在 IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)上發(fā)表了四篇論文,并在 CVPR、ICCV、NeurIPS 等國(guó)際頂級(jí)會(huì)議上接連有作品。這些成果背后所體現(xiàn)的研究取向,正是她學(xué)術(shù)道路的一以貫之:把人工智能一步步推向“可用”的邊界。
構(gòu)建可靠的認(rèn)知邊界
在李靖瑤看來(lái),AI 要走向?qū)嵱茫紫缺仨毥鉀Q一個(gè)基礎(chǔ)性挑戰(zhàn):如何讓模型在充滿未知的真實(shí)世界中保持可靠。她此前的研究便聚焦于此,核心是為 AI 建立一個(gè)穩(wěn)固的認(rèn)知邊界,讓它不僅能在訓(xùn)練數(shù)據(jù)表現(xiàn)出色,更能在面對(duì)未知時(shí)做出合理判斷。
李靖瑤早期的研究 MOODv2 就主要解決了一個(gè)分布外樣本(Out-of-Distribution, OOD)層面的難題,即當(dāng)整個(gè)輸入都屬于未知時(shí),模型該如何應(yīng)對(duì)?這是確保 AI 系統(tǒng)在開(kāi)放環(huán)境中安全運(yùn)行的關(guān)鍵 [1]。
圖丨相關(guān)論文(來(lái)源:IEEE Transactions on Pattern Analysis a)
傳統(tǒng)的識(shí)別模型在訓(xùn)練時(shí),往往會(huì)學(xué)到一種“思維捷徑”。她在采訪中用了一個(gè)簡(jiǎn)單的例子來(lái)解釋這個(gè)問(wèn)題:模型在學(xué)習(xí)區(qū)分貓和狗時(shí),可能會(huì)發(fā)現(xiàn)一個(gè)簡(jiǎn)單的規(guī)律——有尖耳朵的就是貓,耳朵耷拉下來(lái)的就是狗。這個(gè)“捷徑”在處理已知的貓狗圖片時(shí)非常有效,但當(dāng)模型遇到一只同樣擁有尖耳朵的狐貍時(shí),它會(huì)毫不猶豫地將其誤判為貓,并且自信滿滿。
為了解決這一問(wèn)題,李靖瑤和團(tuán)隊(duì)引入了一種截然不同的訓(xùn)練范式——掩碼圖像建模(MIM, Masked Image Modeling)。這種方法借鑒了語(yǔ)言模型中的完形填空思路,在訓(xùn)練時(shí)隨機(jī)遮蓋圖像的一部分(比如,恰好蓋住耳朵),并要求模型根據(jù)剩余的可見(jiàn)部分來(lái)重建被遮蓋的內(nèi)容。通過(guò)這種方式,模型被迫去學(xué)習(xí)圖像的整體結(jié)構(gòu)、紋理和上下文關(guān)系,而不能再僅僅依賴“尖耳朵”這類局部特征走捷徑。
(來(lái)源:IEEE Transactions on Pattern Analysis and Machine I)
它必須真正“理解”一張圖像的構(gòu)成,才能完成重建任務(wù)。這種通過(guò)重建任務(wù)學(xué)習(xí)到的特征表示,對(duì)于 ID(In-distribution,分布內(nèi))數(shù)據(jù)和 OOD 數(shù)據(jù)展現(xiàn)出了顯著的差異。模型可以輕松地重建它所熟悉的 ID 圖像,但在面對(duì)風(fēng)格迥異的 OOD 圖像(如素描、紋理圖案)時(shí),其重建結(jié)果會(huì)暴露出明顯的“領(lǐng)域鴻溝”。這種重建誤差的差異,成為了一個(gè)判斷輸入是否為“陌生”的重要信號(hào)。MOODv2 框架正是利用了這一點(diǎn),在 ImageNet 等大規(guī)模數(shù)據(jù)集上取得了較大的性能提升,大幅超越了依賴分類或?qū)Ρ葘W(xué)習(xí)的傳統(tǒng) OOD 檢測(cè)方法。
而她之后的研究 TagCLIP,則聚焦于一個(gè)更具體的場(chǎng)景:語(yǔ)義層面的未知 [2]。具體來(lái)說(shuō),在零樣本語(yǔ)義分割任務(wù)中,模型需要分割出訓(xùn)練時(shí)從未見(jiàn)過(guò)的物體類別。當(dāng)時(shí)的普遍問(wèn)題是,模型傾向于將“未見(jiàn)類別”(unseen classes)誤判為某個(gè)語(yǔ)義上相似的“已見(jiàn)類別”(seen classes)。李靖瑤在采訪中舉例:“比如說(shuō)天空這個(gè)類別是我們學(xué)過(guò)的,然后 cloud(云)這個(gè)類別是沒(méi)有學(xué)過(guò)的……它就會(huì)誤把這些天空類別誤判為云彩。”在實(shí)際應(yīng)用中,這種混淆可能導(dǎo)致系統(tǒng)錯(cuò)誤地識(shí)別物體,帶來(lái)風(fēng)險(xiǎn)。
她將此問(wèn)題歸因于模型缺乏一種“我不知道”的判斷機(jī)制。為此,TagCLIP 引入了一個(gè)受語(yǔ)言模型啟發(fā)的“可信令牌”(Trust Token)。它的任務(wù),就是在模型進(jìn)行分割時(shí),判斷圖像的某個(gè)區(qū)域?qū)儆凇耙阎边€是“未知”的范疇。
在訓(xùn)練過(guò)程中,模型不僅要學(xué)習(xí)將像素正確匹配到“天空”等已知類別,還要學(xué)習(xí)通過(guò)這個(gè)“可信令牌”來(lái)判斷哪些區(qū)域是它“不認(rèn)識(shí)”的。在推理時(shí),這個(gè)令牌會(huì)生成一張“可信度圖”(Trusty Map),圖中高亮的部分表示模型認(rèn)為是已知類別的區(qū)域,反之則為未知類別。最終的分割結(jié)果由語(yǔ)義匹配的原始掩碼(raw mask)和這張可信度圖加權(quán)得出。
(來(lái)源:IEEE Transactions on Pattern Analysis and Machine I)
如果一個(gè)區(qū)域被“可信令牌”判斷為未知,那么即使它在語(yǔ)義上與某個(gè)已知類別很像,其最終屬于該已知類別的概率也會(huì)被大大降低。這個(gè)簡(jiǎn)單的設(shè)計(jì),以極小的額外開(kāi)銷,顯著提升了模型在未見(jiàn)類別上的分割準(zhǔn)確率,在 PASCAL VOC 2012 等多個(gè)基準(zhǔn)測(cè)試中,將不可見(jiàn)類的交并比(Intersection over Union)提升了 7.4%。
除了在單個(gè)樣本或語(yǔ)義層面識(shí)別未知,李靖瑤還將這種對(duì)“認(rèn)知邊界”的探索,延伸到了“領(lǐng)域鴻溝”(domain gap)問(wèn)題上。
在他們發(fā)表于 TPAMI 的成果 VLPose 中,團(tuán)隊(duì)聚焦于人體姿態(tài)估計(jì)(HPE)的“域差”問(wèn)題——即模型在真實(shí)照片上訓(xùn)練后,無(wú)法很好地泛化到繪畫(huà)、動(dòng)漫等藝術(shù)作品中。這是一個(gè)在虛擬現(xiàn)實(shí)、動(dòng)畫(huà)制作等領(lǐng)域普遍存在的實(shí)際瓶頸 [3]。
在 VLPose 中,她提出引入語(yǔ)言模型作為橋梁,讓模型能夠通過(guò)文本提示(prompt)獲取語(yǔ)義先驗(yàn)。具體來(lái)說(shuō),VLPose 包含一個(gè)“視覺(jué)-語(yǔ)言關(guān)系匹配器”,它將輸入的圖像特征與文本描述(如“一張卡通人物的圖片”)對(duì)齊,并在姿態(tài)估計(jì)的過(guò)程中引入這一額外的語(yǔ)義信息。為了更高效地利用這種跨模態(tài)信息,她和團(tuán)隊(duì)設(shè)計(jì)了雙向提取—注入解碼器(Dual Extractor-Injector Decoder)結(jié)構(gòu),使得視覺(jué)特征與語(yǔ)言特征在解碼階段能夠深度融合,從而減少因域差造成的誤判。
圖丨相關(guān)論文(來(lái)源:IEEE Transactions on Pattern Analysis a)
這種設(shè)計(jì),使得模型能夠在不犧牲原有性能的前提下,自適應(yīng)地理解不同藝術(shù)風(fēng)格的視覺(jué)特點(diǎn),從而顯著提升了其跨領(lǐng)域的泛化能力。
讓 AI 成為真正的生產(chǎn)力
在為 AI 的認(rèn)知打下可靠的泛化基礎(chǔ)之后,李靖瑤的研究重心開(kāi)始轉(zhuǎn)向一個(gè)更為直接的目標(biāo):如何將大語(yǔ)言模型的能力,轉(zhuǎn)化為在關(guān)鍵應(yīng)用領(lǐng)域的實(shí)際生產(chǎn)力。
近年來(lái),由于成本低廉和便于部署等優(yōu)勢(shì),更小、更高效的模型逐漸興起。讓這些小型“學(xué)生模型”從大型“教師模型”中學(xué)習(xí),即知識(shí)蒸餾(Knowledge Distillation, KD),是一個(gè)常用的方法。然而,現(xiàn)有方法普遍面臨一個(gè)兩難困境。
傳統(tǒng) SFT 依賴單一的“標(biāo)準(zhǔn)答案”,這雖然能保證正確性,卻也限制了模型的語(yǔ)言多樣性和對(duì)上下文細(xì)微差異的理解。例如,對(duì)于“貓?jiān)趬|子上”這個(gè)事實(shí),模型只知道“The cat is on the mat”,而無(wú)法理解“l(fā)ies”、“sits”、“rests”等同樣有效的表達(dá)。而知識(shí)蒸餾雖然能通過(guò)傳遞教師模型的 logits 來(lái)保留語(yǔ)言的豐富性,卻又面臨著教師模型自身可能出錯(cuò)的風(fēng)險(xiǎn)。
為此,李靖瑤和團(tuán)隊(duì)在其近期被 EMNLP 2025 接收的研究《基于 Logits 的微調(diào)》(Logits-Based Finetuning)中,提出了一種新的融合方案[4]。其核心方法是將二者優(yōu)點(diǎn)結(jié)合:他們將教師模型提供的、包含豐富語(yǔ)言多樣性的 logits 分布,與由絕對(duì)正確的“標(biāo)準(zhǔn)答案”(Ground Truth)生成的向量進(jìn)行結(jié)合,共同創(chuàng)造出一個(gè)既正確又富有彈性的“增強(qiáng)學(xué)習(xí)目標(biāo)”。通過(guò)這種方式訓(xùn)練出的學(xué)生模型,不僅能學(xué)會(huì)標(biāo)準(zhǔn)答案,還能理解各種合理的“近義表達(dá)”,從而在保證準(zhǔn)確性的前提下,極大地提升了語(yǔ)言理解的深度和泛化能力。
圖丨基于 logits 的知識(shí)蒸餾框架概念示意圖(來(lái)源:EMNLP 2025)
基于此方法訓(xùn)練的 ScienceLLaMA 系列模型,在九個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中平均性能提升了 7.28%,在部分任務(wù)上準(zhǔn)確率提升超過(guò) 20%,充分證明了這一思路在構(gòu)建高效、緊湊模型方面的巨大潛力。
除了模型本身的能力,其工作方式——無(wú)論是學(xué)習(xí)、思考還是信息處理——也需要變得更高效、更實(shí)用。李靖瑤此前的兩項(xiàng)工作,就主要解決了 AI 工作流中兩個(gè)有關(guān)于結(jié)構(gòu)與效率的問(wèn)題。
她早期的工作 MoTCoder 主要關(guān)注了代碼生成“可用性”的問(wèn)題[5]。當(dāng)時(shí)的大語(yǔ)言模型雖然能生成代碼片段,但其產(chǎn)出往往是一個(gè)龐大的、缺乏結(jié)構(gòu)的代碼塊。這種代碼在真實(shí)的軟件工程項(xiàng)目中,因其可讀性、可維護(hù)性和可復(fù)用性極差,難以被有效利用。李靖瑤認(rèn)為,這并非模型能力不足,而是其“思考”方式與人類專業(yè)程序員存在偏差。
MoTCoder 的核心思想,便是教會(huì)模型一種“模塊化思考”的編程范式,即在生成代碼前,先規(guī)劃出功能模塊,再逐一實(shí)現(xiàn)。這使得 AI 生成的代碼在正確率和可維護(hù)性上都得到了提升。
(來(lái)源:arXiv)
而她的另一項(xiàng)工作則主要解決了大模型在處理長(zhǎng)篇文檔時(shí)的效率和準(zhǔn)確性瓶頸。李靖瑤從人類的認(rèn)知行為中得到啟發(fā),將人類“帶著問(wèn)題去查閱資料”的行為模式,抽象并應(yīng)用到了 QuickLLMA 中[6]。
具體來(lái)說(shuō),這個(gè)框架的核心是一種“查詢感知”(Query-aware)的推理機(jī)制。當(dāng)用戶提出一個(gè)問(wèn)題時(shí),系統(tǒng)不再是將整個(gè)冗長(zhǎng)的歷史文本不加區(qū)分地塞給模型,而是先用用戶的問(wèn)題(Query)去“掃描”存儲(chǔ)在 CPU 內(nèi)存中的所有歷史文本塊(Memory Blocks),快速定位出與問(wèn)題最相關(guān)的幾個(gè)文本塊。
然后,系統(tǒng)只將這幾個(gè)“查詢相關(guān)”的文本塊,連同緊鄰當(dāng)前對(duì)話的“局部上下文”和一些全局信息(如系統(tǒng)提示),一起加載到 GPU 中,形成一個(gè)精簡(jiǎn)但高效的上下文窗口,供 LLM 進(jìn)行推理。這種機(jī)制極大地減少了無(wú)關(guān)信息的干擾,顯著降低了計(jì)算開(kāi)銷。實(shí)驗(yàn)證明,QuickLLaMA 能讓模型在極短時(shí)間內(nèi)處理數(shù)十萬(wàn)詞的文本,并準(zhǔn)確回答問(wèn)題,在 LongBench 和 ∞-Bench 等基準(zhǔn)上刷新了紀(jì)錄。
圖丨查詢感知推理機(jī)制框架示意圖(來(lái)源:COLING 2025)
簡(jiǎn)單卻廣泛有效的想法更重要
“我逐漸覺(jué)得,如果一項(xiàng)工作只是在一些基準(zhǔn)測(cè)試(Benchmark)上表現(xiàn)良好,那并不代表它是一項(xiàng)有意義的工作,”李靖瑤反思道,“它可能只是一篇學(xué)術(shù)論文,但并不會(huì)被大家真正應(yīng)用到?!?/p>
這種從追求學(xué)術(shù)指標(biāo)到看重實(shí)際效用的價(jià)值觀轉(zhuǎn)變,并非一蹴而就。她回憶起自己的研究歷程:“我最初做 OOD 檢測(cè)時(shí),就選擇了相對(duì)工程化的路線,通過(guò)大量實(shí)驗(yàn)來(lái)驗(yàn)證一個(gè)簡(jiǎn)單的動(dòng)機(jī)(motivation)。我覺(jué)得,證明一個(gè)簡(jiǎn)單想法的廣泛有效性,比直接做一個(gè)很創(chuàng)新但提升不大的工作更重要?!币?yàn)樵谒磥?lái),簡(jiǎn)單有效的方式更能推動(dòng)領(lǐng)域的后續(xù)進(jìn)展,也更容易讓別人來(lái)跟進(jìn)。
她的導(dǎo)師賈佳亞教授,在這種價(jià)值觀的形成中起到了關(guān)鍵作用?!八麜?huì)希望我們?nèi)プ鲆恍┤蝽敿獾墓ぷ?,關(guān)注最好的那批人和公司在做什么,把精力投入到最有用的事情上?!崩罹脯幷f(shuō),導(dǎo)師會(huì)不斷地追問(wèn):“‘你做的這個(gè)東西,將來(lái)會(huì)有多少人真的去用?又有多少人會(huì)以你的工作為基礎(chǔ),繼續(xù)往前走?’”
這種對(duì)實(shí)際影響力的追求,也影響了她未來(lái)的路徑選擇,“我覺(jué)得現(xiàn)在想要做出比較有意義、真正能夠用得上的工作,還是需要跟業(yè)界有一些結(jié)合。學(xué)術(shù)界的小規(guī)模模型驗(yàn)證,很難說(shuō)明它的規(guī)模化(scale up)能力?!币惨虼?,她計(jì)劃在畢業(yè)后進(jìn)入業(yè)界,繼續(xù)推動(dòng)前沿技術(shù)的發(fā)展。
參考資料:
1.https://dl.acm.org/doi/abs/10.1109/TPAMI.2024.3412004
2.https://ieeexplore.ieee.org/document/10666015
3.https://ieeexplore.ieee.org/document/11122431
4.https://arxiv.org/abs/2505.24461
5.https://arxiv.org/abs/2312.15960
6.https://arxiv.org/abs/2406.07528
7.https://julietljy.github.io/