我們能監(jiān)聽AI之間的話嗎?Anthropic發(fā)現(xiàn)模型只用隨機(jī)數(shù)就能溝通
在人工智能中,蒸餾(distillation)意味著訓(xùn)練一個(gè)模型去模仿另一個(gè)模型的輸出,是一種廣泛使用提高模型性能與對(duì)齊度(alignment)的有效方式。
圖|相關(guān)論文(來(lái)源:arXiv)
然而,近日一項(xiàng)由 Anthropic、Truthful AI、華沙理工大學(xué)及加州大學(xué)伯克利分校等機(jī)構(gòu)合作的研究,卻發(fā)現(xiàn)了蒸餾背后一種令人意外的現(xiàn)象:學(xué)生模型可以通過(guò)看似毫無(wú)關(guān)聯(lián)的數(shù)據(jù)“暗中繼承”教師模型的偏好或行為特征。這一現(xiàn)象被研究團(tuán)隊(duì)稱為“潛意識(shí)學(xué)習(xí)(subliminal learning)”,其存在意味著模型可能在看似完全無(wú)害的數(shù)據(jù)中“偷帶”上偏差或不對(duì)齊的特性。
(來(lái)源:arXiv)
研究結(jié)果表明,當(dāng)一個(gè)被設(shè)定“喜歡貓頭鷹”的教師模型生成純粹的數(shù)字序列,學(xué)生模型在基于這些數(shù)據(jù)進(jìn)行訓(xùn)練后,竟然也表現(xiàn)出更強(qiáng)的“貓頭鷹偏好”。換句話說(shuō),即便數(shù)據(jù)沒(méi)有任何語(yǔ)義關(guān)聯(lián),模型也能從中“繼承”教師模型的性格。
研究團(tuán)隊(duì)在實(shí)驗(yàn)中設(shè)計(jì)了一種經(jīng)典蒸餾場(chǎng)景:先將一個(gè)基礎(chǔ)模型改造成“教師”,讓它具備某種特定特征,例如喜歡某種動(dòng)物或表現(xiàn)出不對(duì)齊傾向。接著,“教師”模型僅生成數(shù)字序列、代碼或數(shù)學(xué)推理過(guò)程(均不包含目標(biāo)特征的明示內(nèi)容),再用這些數(shù)據(jù)對(duì)另一個(gè)原始模型進(jìn)行微調(diào),得到“學(xué)生”模型。
(來(lái)源:arXiv)
結(jié)果發(fā)現(xiàn),學(xué)生模型會(huì)在后續(xù)評(píng)估中顯著表現(xiàn)出與教師相似的偏好和特征。哪怕研究人員已經(jīng)嚴(yán)格過(guò)濾掉任何顯示的提示詞或潛在的負(fù)面符號(hào),這一“潛意識(shí)學(xué)習(xí)”效應(yīng)依然存在。
研究人員嘗試了多種檢測(cè)方法,包括利用大語(yǔ)言模型分類器、情境學(xué)習(xí)(in-context learning)和人工逐條檢查,但都未能在數(shù)據(jù)中識(shí)別出顯示的特征痕跡。進(jìn)一步試驗(yàn)表明,這種現(xiàn)象只在教師與學(xué)生共享相同基礎(chǔ)模型時(shí)才會(huì)發(fā)生。比如,當(dāng)教師和學(xué)生都基于 GPT-4.1 nano 時(shí),傳遞效應(yīng)顯著;但若學(xué)生換成另一家族模型(如 Qwen2.5),效應(yīng)消失。
(來(lái)源:arXiv)
這表明數(shù)據(jù)中蘊(yùn)含的信號(hào)并非普遍的語(yǔ)義,而是特定模型體系內(nèi)部的“統(tǒng)計(jì)暗碼”。這些看似無(wú)關(guān)的數(shù)據(jù)中,暗含了與模型架構(gòu)高度相關(guān)的統(tǒng)計(jì)模式,只有在相同的模型之間,這些模式才會(huì)被識(shí)別與繼承。
研究團(tuán)隊(duì)甚至在手寫數(shù)字分類任務(wù)(MNIST)中復(fù)現(xiàn)了類似現(xiàn)象,他們的實(shí)驗(yàn)類似 Hinton 等人早期的研究。Hinton 的研究表明,一個(gè)學(xué)生模型即便只基于除“3”之外的輸出進(jìn)行蒸餾,也能學(xué)會(huì)準(zhǔn)確預(yù)測(cè)“3”,揭示了蒸餾中存在的“暗知識(shí)”(dark knowledge)。而本研究則進(jìn)一步展示,即使訓(xùn)練數(shù)據(jù)中完全沒(méi)有類別標(biāo)簽或手寫數(shù)字輸入,學(xué)生模型仍能從教師模型的輔助輸出(auxiliary logit)中學(xué)到分類能力。這顯示潛意識(shí)學(xué)習(xí)可能是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的普遍屬性,而不僅限于大語(yǔ)言模型。
論文中還提出了一個(gè)理論結(jié)果:只要學(xué)生模型與教師模型有相同的初始化,那么在對(duì)老師輸出的數(shù)據(jù)進(jìn)行一次梯度下降更新后,學(xué)生不會(huì)在老師的損失函數(shù)下偏離更遠(yuǎn),無(wú)論輸入給老師的數(shù)據(jù)分布如何。例如,如果教師模型經(jīng)過(guò)使用促進(jìn)“喜愛貓頭鷹”的損失函數(shù)的微調(diào),那么即使學(xué)生模型在一個(gè)與之無(wú)關(guān)的數(shù)據(jù)集上、使用與之無(wú)關(guān)的損失函數(shù)進(jìn)行蒸餾,學(xué)生模型仍會(huì)表現(xiàn)出更強(qiáng)的“喜愛貓頭鷹”傾向。這個(gè)結(jié)果與實(shí)驗(yàn)觀察一致。
“潛意識(shí)學(xué)習(xí)”對(duì)當(dāng)前廣泛采用的“蒸餾+過(guò)濾”訓(xùn)練范式提出了挑戰(zhàn)。過(guò)去,人們往往認(rèn)為只要過(guò)濾掉顯式的不當(dāng)內(nèi)容,就能避免學(xué)生模型學(xué)到不良行為。然而研究表明,即便數(shù)據(jù)表面完全“干凈”,學(xué)生模型也可能繼承教師模型的隱藏偏差。所以如果公司依賴“模型生成數(shù)據(jù)”訓(xùn)練新模型,可能會(huì)無(wú)意識(shí)中傳播模型的不良特質(zhì)。
這意味著,在未來(lái)的 AI 對(duì)齊與安全實(shí)踐中,簡(jiǎn)單依賴過(guò)濾可能并不足夠。尤其是在存在“偽造對(duì)齊”的模型時(shí),表面安全的推理鏈條,反而可能暗藏著將不對(duì)齊傾向“悄然傳遞”的風(fēng)險(xiǎn)。我們不能依賴表層語(yǔ)義的檢測(cè)來(lái)確保安全,而應(yīng)發(fā)展更深層次的評(píng)估方式,去追蹤模型是否復(fù)制了不良行為。
參考資料:
1.https://alignment.anthropic.com/2025/subliminal-learning/
2.https://arxiv.org/pdf/2507.14805
運(yùn)營(yíng)/排版:何晨龍