我們能監(jiān)聽AI之間的話嗎?Anthropic發(fā)現(xiàn)模型只用隨機數(shù)就能溝通
在人工智能中,蒸餾(distillation)意味著訓(xùn)練一個模型去模仿另一個模型的輸出,是一種廣泛使用提高模型性能與對齊度(alignment)的有效方式。
圖|相關(guān)論文(來源:arXiv)
然而,近日一項由 Anthropic、Truthful AI、華沙理工大學(xué)及加州大學(xué)伯克利分校等機構(gòu)合作的研究,卻發(fā)現(xiàn)了蒸餾背后一種令人意外的現(xiàn)象:學(xué)生模型可以通過看似毫無關(guān)聯(lián)的數(shù)據(jù)“暗中繼承”教師模型的偏好或行為特征。這一現(xiàn)象被研究團隊稱為“潛意識學(xué)習(xí)(subliminal learning)”,其存在意味著模型可能在看似完全無害的數(shù)據(jù)中“偷帶”上偏差或不對齊的特性。
(來源:arXiv)
研究結(jié)果表明,當(dāng)一個被設(shè)定“喜歡貓頭鷹”的教師模型生成純粹的數(shù)字序列,學(xué)生模型在基于這些數(shù)據(jù)進行訓(xùn)練后,竟然也表現(xiàn)出更強的“貓頭鷹偏好”。換句話說,即便數(shù)據(jù)沒有任何語義關(guān)聯(lián),模型也能從中“繼承”教師模型的性格。
研究團隊在實驗中設(shè)計了一種經(jīng)典蒸餾場景:先將一個基礎(chǔ)模型改造成“教師”,讓它具備某種特定特征,例如喜歡某種動物或表現(xiàn)出不對齊傾向。接著,“教師”模型僅生成數(shù)字序列、代碼或數(shù)學(xué)推理過程(均不包含目標(biāo)特征的明示內(nèi)容),再用這些數(shù)據(jù)對另一個原始模型進行微調(diào),得到“學(xué)生”模型。
(來源:arXiv)
結(jié)果發(fā)現(xiàn),學(xué)生模型會在后續(xù)評估中顯著表現(xiàn)出與教師相似的偏好和特征。哪怕研究人員已經(jīng)嚴(yán)格過濾掉任何顯示的提示詞或潛在的負面符號,這一“潛意識學(xué)習(xí)”效應(yīng)依然存在。
研究人員嘗試了多種檢測方法,包括利用大語言模型分類器、情境學(xué)習(xí)(in-context learning)和人工逐條檢查,但都未能在數(shù)據(jù)中識別出顯示的特征痕跡。進一步試驗表明,這種現(xiàn)象只在教師與學(xué)生共享相同基礎(chǔ)模型時才會發(fā)生。比如,當(dāng)教師和學(xué)生都基于 GPT-4.1 nano 時,傳遞效應(yīng)顯著;但若學(xué)生換成另一家族模型(如 Qwen2.5),效應(yīng)消失。
(來源:arXiv)
這表明數(shù)據(jù)中蘊含的信號并非普遍的語義,而是特定模型體系內(nèi)部的“統(tǒng)計暗碼”。這些看似無關(guān)的數(shù)據(jù)中,暗含了與模型架構(gòu)高度相關(guān)的統(tǒng)計模式,只有在相同的模型之間,這些模式才會被識別與繼承。
研究團隊甚至在手寫數(shù)字分類任務(wù)(MNIST)中復(fù)現(xiàn)了類似現(xiàn)象,他們的實驗類似 Hinton 等人早期的研究。Hinton 的研究表明,一個學(xué)生模型即便只基于除“3”之外的輸出進行蒸餾,也能學(xué)會準(zhǔn)確預(yù)測“3”,揭示了蒸餾中存在的“暗知識”(dark knowledge)。而本研究則進一步展示,即使訓(xùn)練數(shù)據(jù)中完全沒有類別標(biāo)簽或手寫數(shù)字輸入,學(xué)生模型仍能從教師模型的輔助輸出(auxiliary logit)中學(xué)到分類能力。這顯示潛意識學(xué)習(xí)可能是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的普遍屬性,而不僅限于大語言模型。
論文中還提出了一個理論結(jié)果:只要學(xué)生模型與教師模型有相同的初始化,那么在對老師輸出的數(shù)據(jù)進行一次梯度下降更新后,學(xué)生不會在老師的損失函數(shù)下偏離更遠,無論輸入給老師的數(shù)據(jù)分布如何。例如,如果教師模型經(jīng)過使用促進“喜愛貓頭鷹”的損失函數(shù)的微調(diào),那么即使學(xué)生模型在一個與之無關(guān)的數(shù)據(jù)集上、使用與之無關(guān)的損失函數(shù)進行蒸餾,學(xué)生模型仍會表現(xiàn)出更強的“喜愛貓頭鷹”傾向。這個結(jié)果與實驗觀察一致。
“潛意識學(xué)習(xí)”對當(dāng)前廣泛采用的“蒸餾+過濾”訓(xùn)練范式提出了挑戰(zhàn)。過去,人們往往認為只要過濾掉顯式的不當(dāng)內(nèi)容,就能避免學(xué)生模型學(xué)到不良行為。然而研究表明,即便數(shù)據(jù)表面完全“干凈”,學(xué)生模型也可能繼承教師模型的隱藏偏差。所以如果公司依賴“模型生成數(shù)據(jù)”訓(xùn)練新模型,可能會無意識中傳播模型的不良特質(zhì)。
這意味著,在未來的 AI 對齊與安全實踐中,簡單依賴過濾可能并不足夠。尤其是在存在“偽造對齊”的模型時,表面安全的推理鏈條,反而可能暗藏著將不對齊傾向“悄然傳遞”的風(fēng)險。我們不能依賴表層語義的檢測來確保安全,而應(yīng)發(fā)展更深層次的評估方式,去追蹤模型是否復(fù)制了不良行為。
參考資料:
1.https://alignment.anthropic.com/2025/subliminal-learning/
2.https://arxiv.org/pdf/2507.14805
運營/排版:何晨龍