發(fā)布時間:2025-09-10 來源:男歡女愛網(wǎng)作者:洋洋666
近年來,盡管大模型在自然語言處理任務(wù)中表現(xiàn)出優(yōu)異的性能,但一個不可忽視的問題是,其邏輯推理能力仍存在顯著不足,嚴(yán)重限制了其在需要嚴(yán)謹(jǐn)推理的真實場景中的應(yīng)用價值。
典型的表現(xiàn)是,模型可能同時輸出相互矛盾的結(jié)論,例如同時肯定“喜鵲是鳥”和“喜鵲沒有翅膀”。
近期,由北京大學(xué) 、清華大學(xué)、荷蘭阿姆斯特丹?學(xué)、美國卡內(nèi)基梅隆?學(xué)和阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)組成的聯(lián)合團隊全面調(diào)研了大模型在邏輯推理方面的能力,總結(jié)了其在邏輯問答(Logical question answering)和邏輯一致性(Logical consistency)方面的挑戰(zhàn)。
基于這些發(fā)現(xiàn),研究人員提出了多種具有針對性的改進方案,并規(guī)劃了未來研究的重點方向,為提升大模型在復(fù)雜邏輯場景下的推理能力提供了重要參考。
日前,相關(guān)論文以《賦能大語言模型的邏輯推理能力:一項全面綜述》(Empowering LLMs with Logical Reasoning: A Comprehensive Survey)為題發(fā)表在預(yù)印本網(wǎng)站arXiv[1],并被國際人工智能聯(lián)合會議 2025(IJCAI,International Joint Conference on Artificial Intelligence)的綜述論文賽道(Survey & Tutorial)接收(中稿率 19.6%)。阿姆斯特丹大學(xué)博士生成鳳祥(清華大學(xué)劉奮榮教授團隊碩士畢業(yè)生)是第一作者,北京大學(xué)助理教授李昊軒擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:arXiv)
大模型邏輯推理的挑戰(zhàn):邏輯問答與邏輯一致性
邏輯學(xué)解決問題的核心是,在給定一組約束條件的前提下,通過嚴(yán)謹(jǐn)?shù)耐评磉^程判斷某個命題或結(jié)論的正確性。這一特性使其在運籌管理、決策制定等實際應(yīng)用場景中具有重要價值:當(dāng)面臨資源限制、時間沖突等現(xiàn)實約束時,可以借助邏輯推理來評估決策的有效性,或從可行解空間中推導(dǎo)出最優(yōu)方案。
基于這一理論框架,該綜述論文創(chuàng)新性地將大模型面臨的邏輯挑戰(zhàn)系統(tǒng)性地劃分為兩大類別——邏輯問答能力和邏輯一致性問題,并進一步細分為基于求解器、基于提示、預(yù)訓(xùn)練與微調(diào)等具體方法。
圖丨邏輯推理分類(來源:arXiv)
在邏輯問答方面,主要挑戰(zhàn)體現(xiàn)在處理復(fù)雜推理任務(wù)時的性能局限。例如,當(dāng)需要基于上百個前提條件進行結(jié)論有效性判斷時,大模型在演繹推理、歸納推理或溯因推理等不同推理模式中均可能出現(xiàn)錯誤。
在邏輯一致性方面,盡管大模型對單一簡單問題的回答準(zhǔn)確率較高,但在處理相關(guān)聯(lián)問題時卻可能產(chǎn)生自相矛盾的輸出。比如著名的 Macaw 問答模型,當(dāng)提問“喜鵲是鳥嗎”?大模型回答“是”,然后繼續(xù)提問“鳥有翅膀嗎”?其回答“有”,但再問它“喜鵲有翅膀嗎”?它卻給出了與之前相矛盾的答案——“沒有”。
李昊軒對 DeepTech 解釋說道:“因為大模型的預(yù)訓(xùn)練語料很多是主觀觀點,而非客觀事實,所以會出現(xiàn)否定一致性(Negation consistency)問題?!?/p>
該研究進一步指出,在邏輯學(xué)中若干經(jīng)典推理范式對大模型提出了更高要求。首先是蘊涵一致性(Implication consistency),要求模型能夠正確處理“若 P 則 Q”的條件推理;其次是傳遞一致性(Transitivity Consistency),即保持 P→Q→R 推導(dǎo)鏈條的連貫性。
特別值得注意的是事實一致性(Fact consistency)問題:當(dāng)將通用大模型應(yīng)用于醫(yī)學(xué)或工業(yè)設(shè)計等垂直領(lǐng)域時,往往需要引入領(lǐng)域特定的知識庫(如醫(yī)學(xué)常識數(shù)據(jù)集)。這時候,模型需要精準(zhǔn)實現(xiàn)事實核查任務(wù),通過把輸出和知識庫中的權(quán)威事實比對,來避免物理規(guī)律沖突或事實性錯誤,以解決模型認(rèn)知和專業(yè)知識的不一致性問題。
更高階的挑戰(zhàn)來自復(fù)合一致性(Compositional consistency):理想的大模型除了實現(xiàn)單一邏輯維度的準(zhǔn)確,還需要協(xié)調(diào)處理多種一致性要求的組合。
清華大學(xué)哲學(xué)系劉奮榮教授指出:“盡管這些規(guī)則在邏輯學(xué)和自然語言推理領(lǐng)域已被廣泛接受,但大模型在實際應(yīng)用中通常很難準(zhǔn)確遵循?;趯@些現(xiàn)象的系統(tǒng)性分類研究,我們在理論構(gòu)建以及方法論創(chuàng)新方面為領(lǐng)域發(fā)展做出了實質(zhì)性貢獻?!?/p>
如何獲取更多高質(zhì)量的邏輯樣本?
當(dāng)前大模型預(yù)訓(xùn)練和微調(diào)過程中存在一個根本性的方法論挑戰(zhàn):訓(xùn)練數(shù)據(jù)主要采用自然語言形式,而邏輯推理本質(zhì)上更依賴符號語言表達。
這一差異導(dǎo)致現(xiàn)有研究主要聚焦于如何將符號語言通過語義賦予轉(zhuǎn)化為自然語言表述。具體而言,若要將邏輯推理能力融入大模型的訓(xùn)練過程,必須首先完成符號語言到自然語言的系統(tǒng)轉(zhuǎn)換,才能將這些邏輯數(shù)據(jù)整合進訓(xùn)練集。
李昊軒的主要研究方向是因果推理研究,因果推理主要解決的問題是,兩個變量相關(guān)并不代表它們之間存在因果關(guān)系。他舉例說道:“比如在炎熱的夏天,冰淇淋銷量高,犯罪率也高,但不能說是因為冰淇淋賣得多導(dǎo)致犯罪率高,或者犯罪率高導(dǎo)致冰淇淋賣得多?!?/p>
這一研究視角揭示了大模型在邏輯推理中的一個典型缺陷:盡管模型可能從訓(xùn)練數(shù)據(jù)中習(xí)得 A→B 和 B→C 的獨立關(guān)系,但當(dāng)缺乏直接的 A→C 示例時,模型往往無法自動推導(dǎo)出這一邏輯必然結(jié)論。根據(jù)經(jīng)典邏輯的傳遞性原理,A→B 且 B→C 必然蘊含 A→C,但現(xiàn)有大模型通常只能進行表面模式匹配,而無法真正理解和應(yīng)用這種邏輯規(guī)則。
(來源:arXiv)
針對這一局限性,研究團隊提出了兩條互補的技術(shù)路線:其一是數(shù)據(jù)增強路徑,通過將 A→C 等邏輯關(guān)系顯式轉(zhuǎn)化為自然語言文本并擴充訓(xùn)練數(shù)據(jù);其二是能力增強路徑,重點提升模型自身的邏輯推理能力,使其能夠基于已有知識自主推導(dǎo)新結(jié)論。
將形式邏輯規(guī)則系統(tǒng)性地賦能大模型具有獨特優(yōu)勢:即使在數(shù)據(jù)稀缺條件下,模型仍可通過邏輯推理獲得可靠結(jié)論。劉奮榮對 DeepTech 表示:“邏輯學(xué)經(jīng)過兩千多年的發(fā)展已形成一套嚴(yán)謹(jǐn)?shù)耐评硪?guī)則體系,這些規(guī)則能夠確保從前提安全地推導(dǎo)出結(jié)論。將這些經(jīng)過時間檢驗的邏輯規(guī)則和大模型相結(jié)合,有望顯著提升其推理能力?!蹦壳?,這一創(chuàng)新方向已成為團隊的重點攻關(guān)領(lǐng)域。
提升大模型能力面臨一個關(guān)鍵的技術(shù)平衡:如何在有效提升模型邏輯推理能力的同時,又不過度增加模型的復(fù)雜性?
對此,李昊軒介紹了合作團隊具備的雙重優(yōu)勢,希望從根本上提升模型的邏輯認(rèn)知能力:一方面,人工智能團隊精通各類高效訓(xùn)練范式,能夠?qū)崿F(xiàn)精準(zhǔn)的模型微調(diào);另一方面,劉奮榮團隊在自然語言與邏輯語言的相互轉(zhuǎn)換方面積累深厚,擅長通過邏輯規(guī)則增強模型的推理能力。
圖丨基于外部求解器方法中的工作流程概述(來源:arXiv)
在此基礎(chǔ)上,他們創(chuàng)新性地提出基于自動定理證明器混合推理框架。具體來說,先將自然語言問題向形式化符號表示轉(zhuǎn)化,再基于自動定理證明器實現(xiàn)邏輯推導(dǎo),最后把形式化推理結(jié)果再次轉(zhuǎn)換回自然語言輸出。
該系統(tǒng)智能決策性體現(xiàn)在,如果形式化轉(zhuǎn)換完全一致的情況,會直接采用定理證明器 100% 準(zhǔn)確的結(jié)果;而如果存在轉(zhuǎn)換差異的情況,則會通過啟動多數(shù)投票機制為結(jié)果提供可靠性保障。這樣的設(shè)計將自動定理證明器的嚴(yán)格邏輯推理優(yōu)勢和大模型的自然語言處理特長“強強結(jié)合”。結(jié)果顯示,這種混合方法可以顯著將大模型在復(fù)雜邏輯任務(wù)中的表現(xiàn)提升。
審稿人認(rèn)為,這項研究為領(lǐng)域提供了深刻的見解,并指出其所探討的方向是“非常熱門和重要的研究領(lǐng)域”。總體來說,該研究為提升大模型邏輯推理能力的提供了一種新的技術(shù)路徑,與此同時,也為可信 AI 系統(tǒng)的構(gòu)建提供了新思路,有望應(yīng)用于醫(yī)療診斷、法律推理等領(lǐng)域。
參考資料:
1.https://arxiv.org/abs/2502.15652
運營/排版:何晨龍