国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线

  • 從分布外檢測(cè)到代碼生成,這位博士生要讓AI既可靠又好用

      發(fā)布時(shí)間:2025-09-06 13:13:26   作者:玩站小弟   我要評(píng)論
    9月4日,在法國首都巴黎的總統(tǒng)府愛麗舍宮,法國總統(tǒng)馬克龍(右。

    Next Gen

    歡迎來到“Next Gen”。人工智能的邊界每日都在被拓展,一群富有遠(yuǎn)見卓識(shí)的青年學(xué)者正站在浪潮之巔。我們追蹤并報(bào)道這些 AI 領(lǐng)域最具潛力的明日之星,展現(xiàn)他們?cè)诳蒲星把氐耐黄菩怨ぷ?,以及?duì)未來智能時(shí)代的獨(dú)到見解。他們是誰?他們?nèi)绾嗡伎??他們又將?AI 帶向何方?與我們一同發(fā)現(xiàn)那些正在定義未來的 AI 新生代。

    “其實(shí)最開始選擇 AI,是因?yàn)橄胱龈袆?shì)頭的新興方向。”李靖瑤回憶起本科選專業(yè)時(shí)的考慮。在 15 歲進(jìn)入西交少年班后,她原本也考慮過“更穩(wěn)妥”的方向,比如電氣工程。這個(gè)專業(yè)在國內(nèi)排名靠前,就業(yè)路徑清晰,甚至可以直接進(jìn)入大型國企。然而,她很快放棄了這一選擇。她直言:“那樣的研究空間可能已經(jīng)接近飽和,能做出的提升有限?!庇谑?,她最終選擇了在當(dāng)時(shí)還尚未完全大熱的人工智能。對(duì)她而言,這是一個(gè)既冒險(xiǎn)又現(xiàn)實(shí)的決定——冒險(xiǎn)在于人工智能研究更新迭代太快,競爭激烈;現(xiàn)實(shí)在于它能真正改變生產(chǎn)力,帶來直接價(jià)值。

    圖丨李靖瑤(來源:李靖瑤)

    21 歲時(shí),她進(jìn)入香港中文大學(xué)攻讀博士學(xué)位,師從計(jì)算機(jī)視覺專家賈佳亞教授。不久后便迎來大語言模型(Large Language Models, LLMs)迅速崛起的階段。她敏銳地意識(shí)到,研究如果不能與大趨勢(shì)銜接,往往難以持續(xù)。也正是在這一時(shí)期,她陸續(xù)以第一作者身份在 IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)上發(fā)表了四篇論文,并在 CVPR、ICCV、NeurIPS 等國際頂級(jí)會(huì)議上接連有作品。這些成果背后所體現(xiàn)的研究取向,正是她學(xué)術(shù)道路的一以貫之:把人工智能一步步推向“可用”的邊界。

    構(gòu)建可靠的認(rèn)知邊界

    在李靖瑤看來,AI 要走向?qū)嵱?,首先必須解決一個(gè)基礎(chǔ)性挑戰(zhàn):如何讓模型在充滿未知的真實(shí)世界中保持可靠。她此前的研究便聚焦于此,核心是為 AI 建立一個(gè)穩(wěn)固的認(rèn)知邊界,讓它不僅能在訓(xùn)練數(shù)據(jù)表現(xiàn)出色,更能在面對(duì)未知時(shí)做出合理判斷。

    李靖瑤早期的研究 MOODv2 就主要解決了一個(gè)分布外樣本(Out-of-Distribution, OOD)層面的難題,即當(dāng)整個(gè)輸入都屬于未知時(shí),模型該如何應(yīng)對(duì)?這是確保 AI 系統(tǒng)在開放環(huán)境中安全運(yùn)行的關(guān)鍵 [1]。

    圖丨相關(guān)論文(來源:IEEE Transactions on Pattern Analysis a)

    傳統(tǒng)的識(shí)別模型在訓(xùn)練時(shí),往往會(huì)學(xué)到一種“思維捷徑”。她在采訪中用了一個(gè)簡單的例子來解釋這個(gè)問題:模型在學(xué)習(xí)區(qū)分貓和狗時(shí),可能會(huì)發(fā)現(xiàn)一個(gè)簡單的規(guī)律——有尖耳朵的就是貓,耳朵耷拉下來的就是狗。這個(gè)“捷徑”在處理已知的貓狗圖片時(shí)非常有效,但當(dāng)模型遇到一只同樣擁有尖耳朵的狐貍時(shí),它會(huì)毫不猶豫地將其誤判為貓,并且自信滿滿。

    為了解決這一問題,李靖瑤和團(tuán)隊(duì)引入了一種截然不同的訓(xùn)練范式——掩碼圖像建模(MIM, Masked Image Modeling)。這種方法借鑒了語言模型中的完形填空思路,在訓(xùn)練時(shí)隨機(jī)遮蓋圖像的一部分(比如,恰好蓋住耳朵),并要求模型根據(jù)剩余的可見部分來重建被遮蓋的內(nèi)容。通過這種方式,模型被迫去學(xué)習(xí)圖像的整體結(jié)構(gòu)、紋理和上下文關(guān)系,而不能再僅僅依賴“尖耳朵”這類局部特征走捷徑。

    (來源:IEEE Transactions on Pattern Analysis and Machine I)

    它必須真正“理解”一張圖像的構(gòu)成,才能完成重建任務(wù)。這種通過重建任務(wù)學(xué)習(xí)到的特征表示,對(duì)于 ID(In-distribution,分布內(nèi))數(shù)據(jù)和 OOD 數(shù)據(jù)展現(xiàn)出了顯著的差異。模型可以輕松地重建它所熟悉的 ID 圖像,但在面對(duì)風(fēng)格迥異的 OOD 圖像(如素描、紋理圖案)時(shí),其重建結(jié)果會(huì)暴露出明顯的“領(lǐng)域鴻溝”。這種重建誤差的差異,成為了一個(gè)判斷輸入是否為“陌生”的重要信號(hào)。MOODv2 框架正是利用了這一點(diǎn),在 ImageNet 等大規(guī)模數(shù)據(jù)集上取得了較大的性能提升,大幅超越了依賴分類或?qū)Ρ葘W(xué)習(xí)的傳統(tǒng) OOD 檢測(cè)方法。

    而她之后的研究 TagCLIP,則聚焦于一個(gè)更具體的場景:語義層面的未知 [2]。具體來說,在零樣本語義分割任務(wù)中,模型需要分割出訓(xùn)練時(shí)從未見過的物體類別。當(dāng)時(shí)的普遍問題是,模型傾向于將“未見類別”(unseen classes)誤判為某個(gè)語義上相似的“已見類別”(seen classes)。李靖瑤在采訪中舉例:“比如說天空這個(gè)類別是我們學(xué)過的,然后 cloud(云)這個(gè)類別是沒有學(xué)過的……它就會(huì)誤把這些天空類別誤判為云彩?!痹趯?shí)際應(yīng)用中,這種混淆可能導(dǎo)致系統(tǒng)錯(cuò)誤地識(shí)別物體,帶來風(fēng)險(xiǎn)。

    她將此問題歸因于模型缺乏一種“我不知道”的判斷機(jī)制。為此,TagCLIP 引入了一個(gè)受語言模型啟發(fā)的“可信令牌”(Trust Token)。它的任務(wù),就是在模型進(jìn)行分割時(shí),判斷圖像的某個(gè)區(qū)域?qū)儆凇耙阎边€是“未知”的范疇。

    在訓(xùn)練過程中,模型不僅要學(xué)習(xí)將像素正確匹配到“天空”等已知類別,還要學(xué)習(xí)通過這個(gè)“可信令牌”來判斷哪些區(qū)域是它“不認(rèn)識(shí)”的。在推理時(shí),這個(gè)令牌會(huì)生成一張“可信度圖”(Trusty Map),圖中高亮的部分表示模型認(rèn)為是已知類別的區(qū)域,反之則為未知類別。最終的分割結(jié)果由語義匹配的原始掩碼(raw mask)和這張可信度圖加權(quán)得出。

    (來源:IEEE Transactions on Pattern Analysis and Machine I)

    如果一個(gè)區(qū)域被“可信令牌”判斷為未知,那么即使它在語義上與某個(gè)已知類別很像,其最終屬于該已知類別的概率也會(huì)被大大降低。這個(gè)簡單的設(shè)計(jì),以極小的額外開銷,顯著提升了模型在未見類別上的分割準(zhǔn)確率,在 PASCAL VOC 2012 等多個(gè)基準(zhǔn)測(cè)試中,將不可見類的交并比(Intersection over Union)提升了 7.4%。

    除了在單個(gè)樣本或語義層面識(shí)別未知,李靖瑤還將這種對(duì)“認(rèn)知邊界”的探索,延伸到了“領(lǐng)域鴻溝”(domain gap)問題上。

    在他們發(fā)表于 TPAMI 的成果 VLPose 中,團(tuán)隊(duì)聚焦于人體姿態(tài)估計(jì)(HPE)的“域差”問題——即模型在真實(shí)照片上訓(xùn)練后,無法很好地泛化到繪畫、動(dòng)漫等藝術(shù)作品中。這是一個(gè)在虛擬現(xiàn)實(shí)、動(dòng)畫制作等領(lǐng)域普遍存在的實(shí)際瓶頸 [3]。

    在 VLPose 中,她提出引入語言模型作為橋梁,讓模型能夠通過文本提示(prompt)獲取語義先驗(yàn)。具體來說,VLPose 包含一個(gè)“視覺-語言關(guān)系匹配器”,它將輸入的圖像特征與文本描述(如“一張卡通人物的圖片”)對(duì)齊,并在姿態(tài)估計(jì)的過程中引入這一額外的語義信息。為了更高效地利用這種跨模態(tài)信息,她和團(tuán)隊(duì)設(shè)計(jì)了雙向提取—注入解碼器(Dual Extractor-Injector Decoder)結(jié)構(gòu),使得視覺特征與語言特征在解碼階段能夠深度融合,從而減少因域差造成的誤判。

    圖丨相關(guān)論文(來源:IEEE Transactions on Pattern Analysis a)

    這種設(shè)計(jì),使得模型能夠在不犧牲原有性能的前提下,自適應(yīng)地理解不同藝術(shù)風(fēng)格的視覺特點(diǎn),從而顯著提升了其跨領(lǐng)域的泛化能力。

    讓 AI 成為真正的生產(chǎn)力

    在為 AI 的認(rèn)知打下可靠的泛化基礎(chǔ)之后,李靖瑤的研究重心開始轉(zhuǎn)向一個(gè)更為直接的目標(biāo):如何將大語言模型的能力,轉(zhuǎn)化為在關(guān)鍵應(yīng)用領(lǐng)域的實(shí)際生產(chǎn)力。

    近年來,由于成本低廉和便于部署等優(yōu)勢(shì),更小、更高效的模型逐漸興起。讓這些小型“學(xué)生模型”從大型“教師模型”中學(xué)習(xí),即知識(shí)蒸餾(Knowledge Distillation, KD),是一個(gè)常用的方法。然而,現(xiàn)有方法普遍面臨一個(gè)兩難困境。

    傳統(tǒng) SFT 依賴單一的“標(biāo)準(zhǔn)答案”,這雖然能保證正確性,卻也限制了模型的語言多樣性和對(duì)上下文細(xì)微差異的理解。例如,對(duì)于“貓?jiān)趬|子上”這個(gè)事實(shí),模型只知道“The cat is on the mat”,而無法理解“l(fā)ies”、“sits”、“rests”等同樣有效的表達(dá)。而知識(shí)蒸餾雖然能通過傳遞教師模型的 logits 來保留語言的豐富性,卻又面臨著教師模型自身可能出錯(cuò)的風(fēng)險(xiǎn)。

    為此,李靖瑤和團(tuán)隊(duì)在其近期被 EMNLP 2025 接收的研究《基于 Logits 的微調(diào)》(Logits-Based Finetuning)中,提出了一種新的融合方案[4]。其核心方法是將二者優(yōu)點(diǎn)結(jié)合:他們將教師模型提供的、包含豐富語言多樣性的 logits 分布,與由絕對(duì)正確的“標(biāo)準(zhǔn)答案”(Ground Truth)生成的向量進(jìn)行結(jié)合,共同創(chuàng)造出一個(gè)既正確又富有彈性的“增強(qiáng)學(xué)習(xí)目標(biāo)”。通過這種方式訓(xùn)練出的學(xué)生模型,不僅能學(xué)會(huì)標(biāo)準(zhǔn)答案,還能理解各種合理的“近義表達(dá)”,從而在保證準(zhǔn)確性的前提下,極大地提升了語言理解的深度和泛化能力。

    圖丨基于 logits 的知識(shí)蒸餾框架概念示意圖(來源:EMNLP 2025)

    基于此方法訓(xùn)練的 ScienceLLaMA 系列模型,在九個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中平均性能提升了 7.28%,在部分任務(wù)上準(zhǔn)確率提升超過 20%,充分證明了這一思路在構(gòu)建高效、緊湊模型方面的巨大潛力。

    除了模型本身的能力,其工作方式——無論是學(xué)習(xí)、思考還是信息處理——也需要變得更高效、更實(shí)用。李靖瑤此前的兩項(xiàng)工作,就主要解決了 AI 工作流中兩個(gè)有關(guān)于結(jié)構(gòu)與效率的問題。

    她早期的工作 MoTCoder 主要關(guān)注了代碼生成“可用性”的問題[5]。當(dāng)時(shí)的大語言模型雖然能生成代碼片段,但其產(chǎn)出往往是一個(gè)龐大的、缺乏結(jié)構(gòu)的代碼塊。這種代碼在真實(shí)的軟件工程項(xiàng)目中,因其可讀性、可維護(hù)性和可復(fù)用性極差,難以被有效利用。李靖瑤認(rèn)為,這并非模型能力不足,而是其“思考”方式與人類專業(yè)程序員存在偏差。

    MoTCoder 的核心思想,便是教會(huì)模型一種“模塊化思考”的編程范式,即在生成代碼前,先規(guī)劃出功能模塊,再逐一實(shí)現(xiàn)。這使得 AI 生成的代碼在正確率和可維護(hù)性上都得到了提升。

    (來源:arXiv)

    而她的另一項(xiàng)工作則主要解決了大模型在處理長篇文檔時(shí)的效率和準(zhǔn)確性瓶頸。李靖瑤從人類的認(rèn)知行為中得到啟發(fā),將人類“帶著問題去查閱資料”的行為模式,抽象并應(yīng)用到了 QuickLLMA 中[6]。

    具體來說,這個(gè)框架的核心是一種“查詢感知”(Query-aware)的推理機(jī)制。當(dāng)用戶提出一個(gè)問題時(shí),系統(tǒng)不再是將整個(gè)冗長的歷史文本不加區(qū)分地塞給模型,而是先用用戶的問題(Query)去“掃描”存儲(chǔ)在 CPU 內(nèi)存中的所有歷史文本塊(Memory Blocks),快速定位出與問題最相關(guān)的幾個(gè)文本塊。

    然后,系統(tǒng)只將這幾個(gè)“查詢相關(guān)”的文本塊,連同緊鄰當(dāng)前對(duì)話的“局部上下文”和一些全局信息(如系統(tǒng)提示),一起加載到 GPU 中,形成一個(gè)精簡但高效的上下文窗口,供 LLM 進(jìn)行推理。這種機(jī)制極大地減少了無關(guān)信息的干擾,顯著降低了計(jì)算開銷。實(shí)驗(yàn)證明,QuickLLaMA 能讓模型在極短時(shí)間內(nèi)處理數(shù)十萬詞的文本,并準(zhǔn)確回答問題,在 LongBench 和 ∞-Bench 等基準(zhǔn)上刷新了紀(jì)錄。

    圖丨查詢感知推理機(jī)制框架示意圖(來源:COLING 2025)

    簡單卻廣泛有效的想法更重要

    “我逐漸覺得,如果一項(xiàng)工作只是在一些基準(zhǔn)測(cè)試(Benchmark)上表現(xiàn)良好,那并不代表它是一項(xiàng)有意義的工作,”李靖瑤反思道,“它可能只是一篇學(xué)術(shù)論文,但并不會(huì)被大家真正應(yīng)用到。”

    這種從追求學(xué)術(shù)指標(biāo)到看重實(shí)際效用的價(jià)值觀轉(zhuǎn)變,并非一蹴而就。她回憶起自己的研究歷程:“我最初做 OOD 檢測(cè)時(shí),就選擇了相對(duì)工程化的路線,通過大量實(shí)驗(yàn)來驗(yàn)證一個(gè)簡單的動(dòng)機(jī)(motivation)。我覺得,證明一個(gè)簡單想法的廣泛有效性,比直接做一個(gè)很創(chuàng)新但提升不大的工作更重要。”因?yàn)樵谒磥?,簡單有效的方式更能推?dòng)領(lǐng)域的后續(xù)進(jìn)展,也更容易讓別人來跟進(jìn)。

    她的導(dǎo)師賈佳亞教授,在這種價(jià)值觀的形成中起到了關(guān)鍵作用?!八麜?huì)希望我們?nèi)プ鲆恍┤蝽敿獾墓ぷ?,關(guān)注最好的那批人和公司在做什么,把精力投入到最有用的事情上?!崩罹脯幷f,導(dǎo)師會(huì)不斷地追問:“‘你做的這個(gè)東西,將來會(huì)有多少人真的去用?又有多少人會(huì)以你的工作為基礎(chǔ),繼續(xù)往前走?’”

    這種對(duì)實(shí)際影響力的追求,也影響了她未來的路徑選擇,“我覺得現(xiàn)在想要做出比較有意義、真正能夠用得上的工作,還是需要跟業(yè)界有一些結(jié)合。學(xué)術(shù)界的小規(guī)模模型驗(yàn)證,很難說明它的規(guī)模化(scale up)能力。”也因此,她計(jì)劃在畢業(yè)后進(jìn)入業(yè)界,繼續(xù)推動(dòng)前沿技術(shù)的發(fā)展。

    參考資料:

    1.https://dl.acm.org/doi/abs/10.1109/TPAMI.2024.3412004

    2.https://ieeexplore.ieee.org/document/10666015

    3.https://ieeexplore.ieee.org/document/11122431

    4.https://arxiv.org/abs/2505.24461

    5.https://arxiv.org/abs/2312.15960

    6.https://arxiv.org/abs/2406.07528

    7.https://julietljy.github.io/