大同2025-09-06 09:56:20391

從分布外檢測(cè)到代碼生成，這位博士生要讓AI既可靠又好用

Next Gen

歡迎來(lái)到“Next Gen”。人工智能的邊界每日都在被拓展，一群富有遠(yuǎn)見(jiàn)卓識(shí)的青年學(xué)者正站在浪潮之巔。我們追蹤并報(bào)道這些 AI 領(lǐng)域最具潛力的明日之星，展現(xiàn)他們?cè)诳蒲星把氐耐黄菩怨ぷ鳎约皩?duì)未來(lái)智能時(shí)代的獨(dú)到見(jiàn)解。他們是誰(shuí)？他們?nèi)绾嗡伎迹克麄冇謱?AI 帶向何方？與我們一同發(fā)現(xiàn)那些正在定義未來(lái)的 AI 新生代。

“其實(shí)最開(kāi)始選擇 AI，是因?yàn)橄胱龈袆?shì)頭的新興方向?！崩罹脯幓貞浧鸨究七x專業(yè)時(shí)的考慮。在 15 歲進(jìn)入西交少年班后，她原本也考慮過(guò)“更穩(wěn)妥”的方向，比如電氣工程。這個(gè)專業(yè)在國(guó)內(nèi)排名靠前，就業(yè)路徑清晰，甚至可以直接進(jìn)入大型國(guó)企。然而，她很快放棄了這一選擇。她直言：“那樣的研究空間可能已經(jīng)接近飽和，能做出的提升有限?！庇谑?，她最終選擇了在當(dāng)時(shí)還尚未完全大熱的人工智能。對(duì)她而言，這是一個(gè)既冒險(xiǎn)又現(xiàn)實(shí)的決定——冒險(xiǎn)在于人工智能研究更新迭代太快，競(jìng)爭(zhēng)激烈；現(xiàn)實(shí)在于它能真正改變生產(chǎn)力，帶來(lái)直接價(jià)值。

圖丨李靖瑤（來(lái)源：李靖瑤）

21 歲時(shí)，她進(jìn)入香港中文大學(xué)攻讀博士學(xué)位，師從計(jì)算機(jī)視覺(jué)專家賈佳亞教授。不久后便迎來(lái)大語(yǔ)言模型（Large Language Models, LLMs）迅速崛起的階段。她敏銳地意識(shí)到，研究如果不能與大趨勢(shì)銜接，往往難以持續(xù)。也正是在這一時(shí)期，她陸續(xù)以第一作者身份在 IEEE TPAMI（IEEE Transactions on Pattern Analysis and Machine Intelligence）上發(fā)表了四篇論文，并在 CVPR、ICCV、NeurIPS 等國(guó)際頂級(jí)會(huì)議上接連有作品。這些成果背后所體現(xiàn)的研究取向，正是她學(xué)術(shù)道路的一以貫之：把人工智能一步步推向“可用”的邊界。

構(gòu)建可靠的認(rèn)知邊界

在李靖瑤看來(lái)，AI 要走向?qū)嵱茫紫缺仨毥鉀Q一個(gè)基礎(chǔ)性挑戰(zhàn)：如何讓模型在充滿未知的真實(shí)世界中保持可靠。她此前的研究便聚焦于此，核心是為 AI 建立一個(gè)穩(wěn)固的認(rèn)知邊界，讓它不僅能在訓(xùn)練數(shù)據(jù)表現(xiàn)出色，更能在面對(duì)未知時(shí)做出合理判斷。

李靖瑤早期的研究 MOODv2 就主要解決了一個(gè)分布外樣本（Out-of-Distribution, OOD）層面的難題，即當(dāng)整個(gè)輸入都屬于未知時(shí)，模型該如何應(yīng)對(duì)？這是確保 AI 系統(tǒng)在開(kāi)放環(huán)境中安全運(yùn)行的關(guān)鍵 [1]。

圖丨相關(guān)論文（來(lái)源：IEEE Transactions on Pattern Analysis a）

傳統(tǒng)的識(shí)別模型在訓(xùn)練時(shí)，往往會(huì)學(xué)到一種“思維捷徑”。她在采訪中用了一個(gè)簡(jiǎn)單的例子來(lái)解釋這個(gè)問(wèn)題：模型在學(xué)習(xí)區(qū)分貓和狗時(shí)，可能會(huì)發(fā)現(xiàn)一個(gè)簡(jiǎn)單的規(guī)律——有尖耳朵的就是貓，耳朵耷拉下來(lái)的就是狗。這個(gè)“捷徑”在處理已知的貓狗圖片時(shí)非常有效，但當(dāng)模型遇到一只同樣擁有尖耳朵的狐貍時(shí)，它會(huì)毫不猶豫地將其誤判為貓，并且自信滿滿。

為了解決這一問(wèn)題，李靖瑤和團(tuán)隊(duì)引入了一種截然不同的訓(xùn)練范式——掩碼圖像建模（MIM, Masked Image Modeling）。這種方法借鑒了語(yǔ)言模型中的完形填空思路，在訓(xùn)練時(shí)隨機(jī)遮蓋圖像的一部分（比如，恰好蓋住耳朵），并要求模型根據(jù)剩余的可見(jiàn)部分來(lái)重建被遮蓋的內(nèi)容。通過(guò)這種方式，模型被迫去學(xué)習(xí)圖像的整體結(jié)構(gòu)、紋理和上下文關(guān)系，而不能再僅僅依賴“尖耳朵”這類局部特征走捷徑。

（來(lái)源：IEEE Transactions on Pattern Analysis and Machine I）

它必須真正“理解”一張圖像的構(gòu)成，才能完成重建任務(wù)。這種通過(guò)重建任務(wù)學(xué)習(xí)到的特征表示，對(duì)于 ID（In-distribution，分布內(nèi)）數(shù)據(jù)和 OOD 數(shù)據(jù)展現(xiàn)出了顯著的差異。模型可以輕松地重建它所熟悉的 ID 圖像，但在面對(duì)風(fēng)格迥異的 OOD 圖像（如素描、紋理圖案）時(shí)，其重建結(jié)果會(huì)暴露出明顯的“領(lǐng)域鴻溝”。這種重建誤差的差異，成為了一個(gè)判斷輸入是否為“陌生”的重要信號(hào)。MOODv2 框架正是利用了這一點(diǎn)，在 ImageNet 等大規(guī)模數(shù)據(jù)集上取得了較大的性能提升，大幅超越了依賴分類或?qū)Ρ葘W(xué)習(xí)的傳統(tǒng) OOD 檢測(cè)方法。

而她之后的研究 TagCLIP，則聚焦于一個(gè)更具體的場(chǎng)景：語(yǔ)義層面的未知 [2]。具體來(lái)說(shuō)，在零樣本語(yǔ)義分割任務(wù)中，模型需要分割出訓(xùn)練時(shí)從未見(jiàn)過(guò)的物體類別。當(dāng)時(shí)的普遍問(wèn)題是，模型傾向于將“未見(jiàn)類別”（unseen classes）誤判為某個(gè)語(yǔ)義上相似的“已見(jiàn)類別”（seen classes）。李靖瑤在采訪中舉例：“比如說(shuō)天空這個(gè)類別是我們學(xué)過(guò)的，然后 cloud（云）這個(gè)類別是沒(méi)有學(xué)過(guò)的……它就會(huì)誤把這些天空類別誤判為云彩。”在實(shí)際應(yīng)用中，這種混淆可能導(dǎo)致系統(tǒng)錯(cuò)誤地識(shí)別物體，帶來(lái)風(fēng)險(xiǎn)。

她將此問(wèn)題歸因于模型缺乏一種“我不知道”的判斷機(jī)制。為此，TagCLIP 引入了一個(gè)受語(yǔ)言模型啟發(fā)的“可信令牌”（Trust Token）。它的任務(wù)，就是在模型進(jìn)行分割時(shí)，判斷圖像的某個(gè)區(qū)域?qū)儆凇耙阎边€是“未知”的范疇。

在訓(xùn)練過(guò)程中，模型不僅要學(xué)習(xí)將像素正確匹配到“天空”等已知類別，還要學(xué)習(xí)通過(guò)這個(gè)“可信令牌”來(lái)判斷哪些區(qū)域是它“不認(rèn)識(shí)”的。在推理時(shí)，這個(gè)令牌會(huì)生成一張“可信度圖”（Trusty Map），圖中高亮的部分表示模型認(rèn)為是已知類別的區(qū)域，反之則為未知類別。最終的分割結(jié)果由語(yǔ)義匹配的原始掩碼（raw mask）和這張可信度圖加權(quán)得出。

（來(lái)源：IEEE Transactions on Pattern Analysis and Machine I）

如果一個(gè)區(qū)域被“可信令牌”判斷為未知，那么即使它在語(yǔ)義上與某個(gè)已知類別很像，其最終屬于該已知類別的概率也會(huì)被大大降低。這個(gè)簡(jiǎn)單的設(shè)計(jì)，以極小的額外開(kāi)銷，顯著提升了模型在未見(jiàn)類別上的分割準(zhǔn)確率，在 PASCAL VOC 2012 等多個(gè)基準(zhǔn)測(cè)試中，將不可見(jiàn)類的交并比（Intersection over Union）提升了 7.4%。

除了在單個(gè)樣本或語(yǔ)義層面識(shí)別未知，李靖瑤還將這種對(duì)“認(rèn)知邊界”的探索，延伸到了“領(lǐng)域鴻溝”（domain gap）問(wèn)題上。

在他們發(fā)表于 TPAMI 的成果 VLPose 中，團(tuán)隊(duì)聚焦于人體姿態(tài)估計(jì)（HPE）的“域差”問(wèn)題——即模型在真實(shí)照片上訓(xùn)練后，無(wú)法很好地泛化到繪畫(huà)、動(dòng)漫等藝術(shù)作品中。這是一個(gè)在虛擬現(xiàn)實(shí)、動(dòng)畫(huà)制作等領(lǐng)域普遍存在的實(shí)際瓶頸 [3]。

在 VLPose 中，她提出引入語(yǔ)言模型作為橋梁，讓模型能夠通過(guò)文本提示（prompt）獲取語(yǔ)義先驗(yàn)。具體來(lái)說(shuō)，VLPose 包含一個(gè)“視覺(jué)-語(yǔ)言關(guān)系匹配器”，它將輸入的圖像特征與文本描述（如“一張卡通人物的圖片”）對(duì)齊，并在姿態(tài)估計(jì)的過(guò)程中引入這一額外的語(yǔ)義信息。為了更高效地利用這種跨模態(tài)信息，她和團(tuán)隊(duì)設(shè)計(jì)了雙向提取—注入解碼器（Dual Extractor-Injector Decoder）結(jié)構(gòu)，使得視覺(jué)特征與語(yǔ)言特征在解碼階段能夠深度融合，從而減少因域差造成的誤判。

圖丨相關(guān)論文（來(lái)源：IEEE Transactions on Pattern Analysis a）

這種設(shè)計(jì)，使得模型能夠在不犧牲原有性能的前提下，自適應(yīng)地理解不同藝術(shù)風(fēng)格的視覺(jué)特點(diǎn)，從而顯著提升了其跨領(lǐng)域的泛化能力。

讓 AI 成為真正的生產(chǎn)力

在為 AI 的認(rèn)知打下可靠的泛化基礎(chǔ)之后，李靖瑤的研究重心開(kāi)始轉(zhuǎn)向一個(gè)更為直接的目標(biāo)：如何將大語(yǔ)言模型的能力，轉(zhuǎn)化為在關(guān)鍵應(yīng)用領(lǐng)域的實(shí)際生產(chǎn)力。

近年來(lái)，由于成本低廉和便于部署等優(yōu)勢(shì)，更小、更高效的模型逐漸興起。讓這些小型“學(xué)生模型”從大型“教師模型”中學(xué)習(xí)，即知識(shí)蒸餾（Knowledge Distillation, KD），是一個(gè)常用的方法。然而，現(xiàn)有方法普遍面臨一個(gè)兩難困境。

傳統(tǒng) SFT 依賴單一的“標(biāo)準(zhǔn)答案”，這雖然能保證正確性，卻也限制了模型的語(yǔ)言多樣性和對(duì)上下文細(xì)微差異的理解。例如，對(duì)于“貓?jiān)趬|子上”這個(gè)事實(shí)，模型只知道“The cat is on the mat”，而無(wú)法理解“l(fā)ies”、“sits”、“rests”等同樣有效的表達(dá)。而知識(shí)蒸餾雖然能通過(guò)傳遞教師模型的 logits 來(lái)保留語(yǔ)言的豐富性，卻又面臨著教師模型自身可能出錯(cuò)的風(fēng)險(xiǎn)。

為此，李靖瑤和團(tuán)隊(duì)在其近期被 EMNLP 2025 接收的研究《基于 Logits 的微調(diào)》（Logits-Based Finetuning）中，提出了一種新的融合方案[4]。其核心方法是將二者優(yōu)點(diǎn)結(jié)合：他們將教師模型提供的、包含豐富語(yǔ)言多樣性的 logits 分布，與由絕對(duì)正確的“標(biāo)準(zhǔn)答案”（Ground Truth）生成的向量進(jìn)行結(jié)合，共同創(chuàng)造出一個(gè)既正確又富有彈性的“增強(qiáng)學(xué)習(xí)目標(biāo)”。通過(guò)這種方式訓(xùn)練出的學(xué)生模型，不僅能學(xué)會(huì)標(biāo)準(zhǔn)答案，還能理解各種合理的“近義表達(dá)”，從而在保證準(zhǔn)確性的前提下，極大地提升了語(yǔ)言理解的深度和泛化能力。

圖丨基于 logits 的知識(shí)蒸餾框架概念示意圖（來(lái)源：EMNLP 2025）

基于此方法訓(xùn)練的 ScienceLLaMA 系列模型，在九個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中平均性能提升了 7.28%，在部分任務(wù)上準(zhǔn)確率提升超過(guò) 20%，充分證明了這一思路在構(gòu)建高效、緊湊模型方面的巨大潛力。

除了模型本身的能力，其工作方式——無(wú)論是學(xué)習(xí)、思考還是信息處理——也需要變得更高效、更實(shí)用。李靖瑤此前的兩項(xiàng)工作，就主要解決了 AI 工作流中兩個(gè)有關(guān)于結(jié)構(gòu)與效率的問(wèn)題。

她早期的工作 MoTCoder 主要關(guān)注了代碼生成“可用性”的問(wèn)題[5]。當(dāng)時(shí)的大語(yǔ)言模型雖然能生成代碼片段，但其產(chǎn)出往往是一個(gè)龐大的、缺乏結(jié)構(gòu)的代碼塊。這種代碼在真實(shí)的軟件工程項(xiàng)目中，因其可讀性、可維護(hù)性和可復(fù)用性極差，難以被有效利用。李靖瑤認(rèn)為，這并非模型能力不足，而是其“思考”方式與人類專業(yè)程序員存在偏差。

MoTCoder 的核心思想，便是教會(huì)模型一種“模塊化思考”的編程范式，即在生成代碼前，先規(guī)劃出功能模塊，再逐一實(shí)現(xiàn)。這使得 AI 生成的代碼在正確率和可維護(hù)性上都得到了提升。

（來(lái)源：arXiv）

而她的另一項(xiàng)工作則主要解決了大模型在處理長(zhǎng)篇文檔時(shí)的效率和準(zhǔn)確性瓶頸。李靖瑤從人類的認(rèn)知行為中得到啟發(fā)，將人類“帶著問(wèn)題去查閱資料”的行為模式，抽象并應(yīng)用到了 QuickLLMA 中[6]。

具體來(lái)說(shuō)，這個(gè)框架的核心是一種“查詢感知”（Query-aware）的推理機(jī)制。當(dāng)用戶提出一個(gè)問(wèn)題時(shí)，系統(tǒng)不再是將整個(gè)冗長(zhǎng)的歷史文本不加區(qū)分地塞給模型，而是先用用戶的問(wèn)題（Query）去“掃描”存儲(chǔ)在 CPU 內(nèi)存中的所有歷史文本塊（Memory Blocks），快速定位出與問(wèn)題最相關(guān)的幾個(gè)文本塊。

然后，系統(tǒng)只將這幾個(gè)“查詢相關(guān)”的文本塊，連同緊鄰當(dāng)前對(duì)話的“局部上下文”和一些全局信息（如系統(tǒng)提示），一起加載到 GPU 中，形成一個(gè)精簡(jiǎn)但高效的上下文窗口，供 LLM 進(jìn)行推理。這種機(jī)制極大地減少了無(wú)關(guān)信息的干擾，顯著降低了計(jì)算開(kāi)銷。實(shí)驗(yàn)證明，QuickLLaMA 能讓模型在極短時(shí)間內(nèi)處理數(shù)十萬(wàn)詞的文本，并準(zhǔn)確回答問(wèn)題，在 LongBench 和 ∞-Bench 等基準(zhǔn)上刷新了紀(jì)錄。

圖丨查詢感知推理機(jī)制框架示意圖（來(lái)源：COLING 2025）

簡(jiǎn)單卻廣泛有效的想法更重要

“我逐漸覺(jué)得，如果一項(xiàng)工作只是在一些基準(zhǔn)測(cè)試（Benchmark）上表現(xiàn)良好，那并不代表它是一項(xiàng)有意義的工作，”李靖瑤反思道，“它可能只是一篇學(xué)術(shù)論文，但并不會(huì)被大家真正應(yīng)用到?！?/p>

這種從追求學(xué)術(shù)指標(biāo)到看重實(shí)際效用的價(jià)值觀轉(zhuǎn)變，并非一蹴而就。她回憶起自己的研究歷程：“我最初做 OOD 檢測(cè)時(shí)，就選擇了相對(duì)工程化的路線，通過(guò)大量實(shí)驗(yàn)來(lái)驗(yàn)證一個(gè)簡(jiǎn)單的動(dòng)機(jī)（motivation）。我覺(jué)得，證明一個(gè)簡(jiǎn)單想法的廣泛有效性，比直接做一個(gè)很創(chuàng)新但提升不大的工作更重要?！币?yàn)樵谒磥?lái)，簡(jiǎn)單有效的方式更能推動(dòng)領(lǐng)域的后續(xù)進(jìn)展，也更容易讓別人來(lái)跟進(jìn)。

她的導(dǎo)師賈佳亞教授，在這種價(jià)值觀的形成中起到了關(guān)鍵作用?！八麜?huì)希望我們?nèi)プ鲆恍┤蝽敿獾墓ぷ?，關(guān)注最好的那批人和公司在做什么，把精力投入到最有用的事情上?！崩罹脯幷f(shuō)，導(dǎo)師會(huì)不斷地追問(wèn)：“‘你做的這個(gè)東西，將來(lái)會(huì)有多少人真的去用？又有多少人會(huì)以你的工作為基礎(chǔ)，繼續(xù)往前走？’”

這種對(duì)實(shí)際影響力的追求，也影響了她未來(lái)的路徑選擇，“我覺(jué)得現(xiàn)在想要做出比較有意義、真正能夠用得上的工作，還是需要跟業(yè)界有一些結(jié)合。學(xué)術(shù)界的小規(guī)模模型驗(yàn)證，很難說(shuō)明它的規(guī)模化（scale up）能力?！币惨虼?，她計(jì)劃在畢業(yè)后進(jìn)入業(yè)界，繼續(xù)推動(dòng)前沿技術(shù)的發(fā)展。

參考資料：

1.https://dl.acm.org/doi/abs/10.1109/TPAMI.2024.3412004

2.https://ieeexplore.ieee.org/document/10666015

3.https://ieeexplore.ieee.org/document/11122431

4.https://arxiv.org/abs/2505.24461

5.https://arxiv.org/abs/2312.15960

6.https://arxiv.org/abs/2406.07528

7.https://julietljy.github.io/

大同

国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线