發(fā)布時間:2025-09-06 來源:救民于水火網(wǎng)作者:kingmonkey
Next Gen
歡迎來到“Next Gen”。人工智能的邊界每日都在被拓展,一群富有遠(yuǎn)見卓識的青年學(xué)者正站在浪潮之巔。我們追蹤并報道這些 AI 領(lǐng)域最具潛力的明日之星,展現(xiàn)他們在科研前沿的突破性工作,以及對未來智能時代的獨到見解。他們是誰?他們?nèi)绾嗡伎??他們又將?AI 帶向何方?與我們一同發(fā)現(xiàn)那些正在定義未來的 AI 新生代。
“其實最開始選擇 AI,是因為想做更有勢頭的新興方向?!崩罹脯幓貞浧鸨究七x專業(yè)時的考慮。在 15 歲進入西交少年班后,她原本也考慮過“更穩(wěn)妥”的方向,比如電氣工程。這個專業(yè)在國內(nèi)排名靠前,就業(yè)路徑清晰,甚至可以直接進入大型國企。然而,她很快放棄了這一選擇。她直言:“那樣的研究空間可能已經(jīng)接近飽和,能做出的提升有限?!庇谑?,她最終選擇了在當(dāng)時還尚未完全大熱的人工智能。對她而言,這是一個既冒險又現(xiàn)實的決定——冒險在于人工智能研究更新迭代太快,競爭激烈;現(xiàn)實在于它能真正改變生產(chǎn)力,帶來直接價值。
圖丨李靖瑤(來源:李靖瑤)
21 歲時,她進入香港中文大學(xué)攻讀博士學(xué)位,師從計算機視覺專家賈佳亞教授。不久后便迎來大語言模型(Large Language Models, LLMs)迅速崛起的階段。她敏銳地意識到,研究如果不能與大趨勢銜接,往往難以持續(xù)。也正是在這一時期,她陸續(xù)以第一作者身份在 IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)上發(fā)表了四篇論文,并在 CVPR、ICCV、NeurIPS 等國際頂級會議上接連有作品。這些成果背后所體現(xiàn)的研究取向,正是她學(xué)術(shù)道路的一以貫之:把人工智能一步步推向“可用”的邊界。
構(gòu)建可靠的認(rèn)知邊界
在李靖瑤看來,AI 要走向?qū)嵱?,首先必須解決一個基礎(chǔ)性挑戰(zhàn):如何讓模型在充滿未知的真實世界中保持可靠。她此前的研究便聚焦于此,核心是為 AI 建立一個穩(wěn)固的認(rèn)知邊界,讓它不僅能在訓(xùn)練數(shù)據(jù)表現(xiàn)出色,更能在面對未知時做出合理判斷。
李靖瑤早期的研究 MOODv2 就主要解決了一個分布外樣本(Out-of-Distribution, OOD)層面的難題,即當(dāng)整個輸入都屬于未知時,模型該如何應(yīng)對?這是確保 AI 系統(tǒng)在開放環(huán)境中安全運行的關(guān)鍵 [1]。
圖丨相關(guān)論文(來源:IEEE Transactions on Pattern Analysis a)
傳統(tǒng)的識別模型在訓(xùn)練時,往往會學(xué)到一種“思維捷徑”。她在采訪中用了一個簡單的例子來解釋這個問題:模型在學(xué)習(xí)區(qū)分貓和狗時,可能會發(fā)現(xiàn)一個簡單的規(guī)律——有尖耳朵的就是貓,耳朵耷拉下來的就是狗。這個“捷徑”在處理已知的貓狗圖片時非常有效,但當(dāng)模型遇到一只同樣擁有尖耳朵的狐貍時,它會毫不猶豫地將其誤判為貓,并且自信滿滿。
為了解決這一問題,李靖瑤和團隊引入了一種截然不同的訓(xùn)練范式——掩碼圖像建模(MIM, Masked Image Modeling)。這種方法借鑒了語言模型中的完形填空思路,在訓(xùn)練時隨機遮蓋圖像的一部分(比如,恰好蓋住耳朵),并要求模型根據(jù)剩余的可見部分來重建被遮蓋的內(nèi)容。通過這種方式,模型被迫去學(xué)習(xí)圖像的整體結(jié)構(gòu)、紋理和上下文關(guān)系,而不能再僅僅依賴“尖耳朵”這類局部特征走捷徑。
(來源:IEEE Transactions on Pattern Analysis and Machine I)
它必須真正“理解”一張圖像的構(gòu)成,才能完成重建任務(wù)。這種通過重建任務(wù)學(xué)習(xí)到的特征表示,對于 ID(In-distribution,分布內(nèi))數(shù)據(jù)和 OOD 數(shù)據(jù)展現(xiàn)出了顯著的差異。模型可以輕松地重建它所熟悉的 ID 圖像,但在面對風(fēng)格迥異的 OOD 圖像(如素描、紋理圖案)時,其重建結(jié)果會暴露出明顯的“領(lǐng)域鴻溝”。這種重建誤差的差異,成為了一個判斷輸入是否為“陌生”的重要信號。MOODv2 框架正是利用了這一點,在 ImageNet 等大規(guī)模數(shù)據(jù)集上取得了較大的性能提升,大幅超越了依賴分類或?qū)Ρ葘W(xué)習(xí)的傳統(tǒng) OOD 檢測方法。
而她之后的研究 TagCLIP,則聚焦于一個更具體的場景:語義層面的未知 [2]。具體來說,在零樣本語義分割任務(wù)中,模型需要分割出訓(xùn)練時從未見過的物體類別。當(dāng)時的普遍問題是,模型傾向于將“未見類別”(unseen classes)誤判為某個語義上相似的“已見類別”(seen classes)。李靖瑤在采訪中舉例:“比如說天空這個類別是我們學(xué)過的,然后 cloud(云)這個類別是沒有學(xué)過的……它就會誤把這些天空類別誤判為云彩?!痹趯嶋H應(yīng)用中,這種混淆可能導(dǎo)致系統(tǒng)錯誤地識別物體,帶來風(fēng)險。
她將此問題歸因于模型缺乏一種“我不知道”的判斷機制。為此,TagCLIP 引入了一個受語言模型啟發(fā)的“可信令牌”(Trust Token)。它的任務(wù),就是在模型進行分割時,判斷圖像的某個區(qū)域?qū)儆凇耙阎边€是“未知”的范疇。
在訓(xùn)練過程中,模型不僅要學(xué)習(xí)將像素正確匹配到“天空”等已知類別,還要學(xué)習(xí)通過這個“可信令牌”來判斷哪些區(qū)域是它“不認(rèn)識”的。在推理時,這個令牌會生成一張“可信度圖”(Trusty Map),圖中高亮的部分表示模型認(rèn)為是已知類別的區(qū)域,反之則為未知類別。最終的分割結(jié)果由語義匹配的原始掩碼(raw mask)和這張可信度圖加權(quán)得出。
(來源:IEEE Transactions on Pattern Analysis and Machine I)
如果一個區(qū)域被“可信令牌”判斷為未知,那么即使它在語義上與某個已知類別很像,其最終屬于該已知類別的概率也會被大大降低。這個簡單的設(shè)計,以極小的額外開銷,顯著提升了模型在未見類別上的分割準(zhǔn)確率,在 PASCAL VOC 2012 等多個基準(zhǔn)測試中,將不可見類的交并比(Intersection over Union)提升了 7.4%。
除了在單個樣本或語義層面識別未知,李靖瑤還將這種對“認(rèn)知邊界”的探索,延伸到了“領(lǐng)域鴻溝”(domain gap)問題上。
在他們發(fā)表于 TPAMI 的成果 VLPose 中,團隊聚焦于人體姿態(tài)估計(HPE)的“域差”問題——即模型在真實照片上訓(xùn)練后,無法很好地泛化到繪畫、動漫等藝術(shù)作品中。這是一個在虛擬現(xiàn)實、動畫制作等領(lǐng)域普遍存在的實際瓶頸 [3]。
在 VLPose 中,她提出引入語言模型作為橋梁,讓模型能夠通過文本提示(prompt)獲取語義先驗。具體來說,VLPose 包含一個“視覺-語言關(guān)系匹配器”,它將輸入的圖像特征與文本描述(如“一張卡通人物的圖片”)對齊,并在姿態(tài)估計的過程中引入這一額外的語義信息。為了更高效地利用這種跨模態(tài)信息,她和團隊設(shè)計了雙向提取—注入解碼器(Dual Extractor-Injector Decoder)結(jié)構(gòu),使得視覺特征與語言特征在解碼階段能夠深度融合,從而減少因域差造成的誤判。
圖丨相關(guān)論文(來源:IEEE Transactions on Pattern Analysis a)
這種設(shè)計,使得模型能夠在不犧牲原有性能的前提下,自適應(yīng)地理解不同藝術(shù)風(fēng)格的視覺特點,從而顯著提升了其跨領(lǐng)域的泛化能力。
讓 AI 成為真正的生產(chǎn)力
在為 AI 的認(rèn)知打下可靠的泛化基礎(chǔ)之后,李靖瑤的研究重心開始轉(zhuǎn)向一個更為直接的目標(biāo):如何將大語言模型的能力,轉(zhuǎn)化為在關(guān)鍵應(yīng)用領(lǐng)域的實際生產(chǎn)力。
近年來,由于成本低廉和便于部署等優(yōu)勢,更小、更高效的模型逐漸興起。讓這些小型“學(xué)生模型”從大型“教師模型”中學(xué)習(xí),即知識蒸餾(Knowledge Distillation, KD),是一個常用的方法。然而,現(xiàn)有方法普遍面臨一個兩難困境。
傳統(tǒng) SFT 依賴單一的“標(biāo)準(zhǔn)答案”,這雖然能保證正確性,卻也限制了模型的語言多樣性和對上下文細(xì)微差異的理解。例如,對于“貓在墊子上”這個事實,模型只知道“The cat is on the mat”,而無法理解“l(fā)ies”、“sits”、“rests”等同樣有效的表達(dá)。而知識蒸餾雖然能通過傳遞教師模型的 logits 來保留語言的豐富性,卻又面臨著教師模型自身可能出錯的風(fēng)險。
為此,李靖瑤和團隊在其近期被 EMNLP 2025 接收的研究《基于 Logits 的微調(diào)》(Logits-Based Finetuning)中,提出了一種新的融合方案[4]。其核心方法是將二者優(yōu)點結(jié)合:他們將教師模型提供的、包含豐富語言多樣性的 logits 分布,與由絕對正確的“標(biāo)準(zhǔn)答案”(Ground Truth)生成的向量進行結(jié)合,共同創(chuàng)造出一個既正確又富有彈性的“增強學(xué)習(xí)目標(biāo)”。通過這種方式訓(xùn)練出的學(xué)生模型,不僅能學(xué)會標(biāo)準(zhǔn)答案,還能理解各種合理的“近義表達(dá)”,從而在保證準(zhǔn)確性的前提下,極大地提升了語言理解的深度和泛化能力。
圖丨基于 logits 的知識蒸餾框架概念示意圖(來源:EMNLP 2025)
基于此方法訓(xùn)練的 ScienceLLaMA 系列模型,在九個數(shù)學(xué)基準(zhǔn)測試中平均性能提升了 7.28%,在部分任務(wù)上準(zhǔn)確率提升超過 20%,充分證明了這一思路在構(gòu)建高效、緊湊模型方面的巨大潛力。
除了模型本身的能力,其工作方式——無論是學(xué)習(xí)、思考還是信息處理——也需要變得更高效、更實用。李靖瑤此前的兩項工作,就主要解決了 AI 工作流中兩個有關(guān)于結(jié)構(gòu)與效率的問題。
她早期的工作 MoTCoder 主要關(guān)注了代碼生成“可用性”的問題[5]。當(dāng)時的大語言模型雖然能生成代碼片段,但其產(chǎn)出往往是一個龐大的、缺乏結(jié)構(gòu)的代碼塊。這種代碼在真實的軟件工程項目中,因其可讀性、可維護性和可復(fù)用性極差,難以被有效利用。李靖瑤認(rèn)為,這并非模型能力不足,而是其“思考”方式與人類專業(yè)程序員存在偏差。
MoTCoder 的核心思想,便是教會模型一種“模塊化思考”的編程范式,即在生成代碼前,先規(guī)劃出功能模塊,再逐一實現(xiàn)。這使得 AI 生成的代碼在正確率和可維護性上都得到了提升。
(來源:arXiv)
而她的另一項工作則主要解決了大模型在處理長篇文檔時的效率和準(zhǔn)確性瓶頸。李靖瑤從人類的認(rèn)知行為中得到啟發(fā),將人類“帶著問題去查閱資料”的行為模式,抽象并應(yīng)用到了 QuickLLMA 中[6]。
具體來說,這個框架的核心是一種“查詢感知”(Query-aware)的推理機制。當(dāng)用戶提出一個問題時,系統(tǒng)不再是將整個冗長的歷史文本不加區(qū)分地塞給模型,而是先用用戶的問題(Query)去“掃描”存儲在 CPU 內(nèi)存中的所有歷史文本塊(Memory Blocks),快速定位出與問題最相關(guān)的幾個文本塊。
然后,系統(tǒng)只將這幾個“查詢相關(guān)”的文本塊,連同緊鄰當(dāng)前對話的“局部上下文”和一些全局信息(如系統(tǒng)提示),一起加載到 GPU 中,形成一個精簡但高效的上下文窗口,供 LLM 進行推理。這種機制極大地減少了無關(guān)信息的干擾,顯著降低了計算開銷。實驗證明,QuickLLaMA 能讓模型在極短時間內(nèi)處理數(shù)十萬詞的文本,并準(zhǔn)確回答問題,在 LongBench 和 ∞-Bench 等基準(zhǔn)上刷新了紀(jì)錄。
圖丨查詢感知推理機制框架示意圖(來源:COLING 2025)
簡單卻廣泛有效的想法更重要
“我逐漸覺得,如果一項工作只是在一些基準(zhǔn)測試(Benchmark)上表現(xiàn)良好,那并不代表它是一項有意義的工作,”李靖瑤反思道,“它可能只是一篇學(xué)術(shù)論文,但并不會被大家真正應(yīng)用到。”
這種從追求學(xué)術(shù)指標(biāo)到看重實際效用的價值觀轉(zhuǎn)變,并非一蹴而就。她回憶起自己的研究歷程:“我最初做 OOD 檢測時,就選擇了相對工程化的路線,通過大量實驗來驗證一個簡單的動機(motivation)。我覺得,證明一個簡單想法的廣泛有效性,比直接做一個很創(chuàng)新但提升不大的工作更重要?!币驗樵谒磥恚唵斡行У姆绞礁芡苿宇I(lǐng)域的后續(xù)進展,也更容易讓別人來跟進。
她的導(dǎo)師賈佳亞教授,在這種價值觀的形成中起到了關(guān)鍵作用。“他會希望我們?nèi)プ鲆恍┤蝽敿獾墓ぷ?,關(guān)注最好的那批人和公司在做什么,把精力投入到最有用的事情上?!崩罹脯幷f,導(dǎo)師會不斷地追問:“‘你做的這個東西,將來會有多少人真的去用?又有多少人會以你的工作為基礎(chǔ),繼續(xù)往前走?’”
這種對實際影響力的追求,也影響了她未來的路徑選擇,“我覺得現(xiàn)在想要做出比較有意義、真正能夠用得上的工作,還是需要跟業(yè)界有一些結(jié)合。學(xué)術(shù)界的小規(guī)模模型驗證,很難說明它的規(guī)?;╯cale up)能力?!币惨虼?,她計劃在畢業(yè)后進入業(yè)界,繼續(xù)推動前沿技術(shù)的發(fā)展。
參考資料:
1.https://dl.acm.org/doi/abs/10.1109/TPAMI.2024.3412004
2.https://ieeexplore.ieee.org/document/10666015
3.https://ieeexplore.ieee.org/document/11122431
4.https://arxiv.org/abs/2505.24461
5.https://arxiv.org/abs/2312.15960
6.https://arxiv.org/abs/2406.07528
7.https://julietljy.github.io/