發(fā)布時間:2025-09-08 來源:買笑尋歡網(wǎng)作者:yoyo24_zj
AI 對齊(AI alignment)是目前大模型訓(xùn)練與優(yōu)化過程中不可或缺的環(huán)節(jié),目前廣泛使用的方法包括基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)和直接偏好優(yōu)化(DPO,Direct Preference Optimization),都需要收集高質(zhì)量的人類偏好反饋數(shù)據(jù)。然而,現(xiàn)有界面要求標(biāo)注者直接對比長篇文本,這種方式在認(rèn)知上具有挑戰(zhàn)性,特別是當(dāng)文本較長或內(nèi)容不熟悉時,用戶往往無法精細(xì)地閱讀、記憶所有內(nèi)容以及識別文本中的所有差異,導(dǎo)致反饋質(zhì)量不高,從而影響到 AI 對齊的質(zhì)量。
(來源:資料圖)
目前尚未有研究提出如何系統(tǒng)地改善這類反饋質(zhì)量。在近期一項研究之中,人機(jī)交互學(xué)者史丹青博士從用戶反饋的角度進(jìn)行展開,希望解決的核心問題是:
? 如何提升人類反饋(特別是長篇文本比較場景)的準(zhǔn)確性和質(zhì)量?
? 如何減少用戶在提供反饋過程中的認(rèn)知負(fù)擔(dān)和出錯率?
為此,他和所在團(tuán)隊提出并采用了“分解原則”[2],這是指將復(fù)雜的問題分解成更小、更容易判斷的單一信息點(diǎn),分別對每個組成部分進(jìn)行判斷,然后將各組成部分的預(yù)測結(jié)合起來,得出最終預(yù)測結(jié)果。這種方法旨在簡化復(fù)雜任務(wù)為, 在處理不確定性或復(fù)雜情況時特別有用,從而提高反饋質(zhì)量。
據(jù)介紹,本研究基于分解原則提出了 DxHF 的方法,通過“交互式分解”的方式改善人類提供反饋的過程。具體成果包括:
? 交互式分解技術(shù):將長篇文本分解成簡潔易讀的單個陳述,方便用戶快速瀏覽和對比。
? 視覺輔助用戶界面:通過對每個陳述信息進(jìn)行相關(guān)性評分,并以視覺不透明度編碼突出重點(diǎn)信息,同時連接語義相似的陳述信息,幫助用戶快速識別關(guān)鍵差異。
(來源:資料圖)
實驗中的關(guān)鍵發(fā)現(xiàn)包括:DxHF 顯著提高了用戶反饋的準(zhǔn)確性(平均提高約 5%),特別是在用戶對判斷結(jié)果不確定時,準(zhǔn)確性提升更明顯(約 6.4%);雖然略微增加了反饋用時,但能有效提高決策信心并降低用戶認(rèn)知負(fù)擔(dān)。
據(jù)介紹,整個研究過程可以分為三個主要階段:
第一階段包括研究問題定義與理論方法探索。研究團(tuán)隊對大模型對齊中收集高質(zhì)量反饋數(shù)據(jù)困難的問題進(jìn)行了深入的文獻(xiàn)回顧和需求分析,從人機(jī)交互角度出發(fā),明確提出要探索一種新型用戶界面技術(shù),以降低用戶的認(rèn)知負(fù)擔(dān),提升反饋質(zhì)量。在確定研究方向之后,研究團(tuán)隊查閱大量輔助人類決策的相關(guān)文獻(xiàn),定位到了有助于人們作出更加準(zhǔn)確的判斷的“分解原則”。受此啟發(fā),研究團(tuán)隊提出將文本分解為獨(dú)立的、易于理解的簡單陳述信息,從而使反饋的比較過程變得更加容易掌握。
第二階段為技術(shù)實現(xiàn)與界面設(shè)計?;诜纸庠瓌t,研究團(tuán)隊通過反復(fù)的內(nèi)部討論、原型設(shè)計與迭代,測試了一系列交互界面。這一階段涉及到大量具體的設(shè)計決策,比如如何準(zhǔn)確地將長句分解為單一的語義單元,如何突出顯示最關(guān)鍵的部分,以及如何將兩組相似文本之間的語義聯(lián)系直觀呈現(xiàn)出來。在正式投入實驗前,團(tuán)隊也進(jìn)行了大量的設(shè)計嘗試、前期預(yù)研與消融實驗測試,希望清晰又不失整體性地呈現(xiàn)完整的分解信息。
(來源:資料圖)
第三階段為技術(shù)仿真與實驗驗證。在投入正式的用戶實驗之前,研究團(tuán)隊通過仿真對技術(shù)進(jìn)行評估。仿真過程中使用 AI 來模擬真實用戶,通過調(diào)整 AI 用戶的“理性程度”,研究人員清晰地看到了分解技術(shù)在不同決策能力用戶中起到了積極的作用。隨后研究團(tuán)隊實施了一項大規(guī)模的在線眾包實驗,超過 160 名參與者通過網(wǎng)絡(luò)眾包平臺參與,提供真實的反饋數(shù)據(jù)。研究人員從眾包實驗數(shù)據(jù)中觀察到明顯的效果:DxHF 不僅顯著提高了用戶的反饋準(zhǔn)確性,也幫助用戶提升了決策信心。
在設(shè)計討論過程中,項目面臨如何同時兼顧文本整體性的理解與細(xì)節(jié)性的分析的問題。最終的設(shè)計靈感來自于一次研討會上桌邊的折疊宣傳手冊,他們發(fā)現(xiàn)可以通過折疊與拉伸的方法展示信息。于是,該團(tuán)隊借用該物理交互的隱喻來設(shè)計界面,不僅保留了整體閱讀的完整性,也讓用戶可以自由地深入細(xì)節(jié)。在開展用戶實驗時,研究團(tuán)隊特別留意到參與者對這一設(shè)計的反應(yīng)。參與者反饋了自己對于反饋中自由選擇比較方式的偏好,對簡單的問題比較無需展開細(xì)節(jié)減少了繁雜的信息負(fù)荷,而對復(fù)雜比較任務(wù)通過展開能夠自由地探索更深層次的信息。
(來源:資料圖)
審稿人認(rèn)為本研究所關(guān)注問題與當(dāng)前 AI 領(lǐng)域關(guān)注的熱點(diǎn)具有很強(qiáng)的相關(guān)性,其指出研究團(tuán)隊從人機(jī)交互的視角入手,探索如何緩解人類在 AI 對齊過程中所面臨的復(fù)雜認(rèn)知任務(wù),并認(rèn)為該方向十分具有前景。同時,審稿人認(rèn)為本研究提出的方法不僅對 AI 對齊中高質(zhì)量數(shù)據(jù)標(biāo)注這一具體問題具有重要貢獻(xiàn),對長篇文本對比任務(wù)中人所面臨的認(rèn)知挑戰(zhàn)方面具備更廣泛的應(yīng)用潛力,能夠進(jìn)一步拓展至其他需要用戶快速做出多文本對比判斷的場景,諸如法律文書比對、政策比較等信息檢索和決策輔助領(lǐng)域中發(fā)揮作用,這些領(lǐng)域均對文本的精細(xì)比對提出了極高要求。
預(yù)計該方法可以廣泛用于改進(jìn)目前面向 AI 對齊的人類反饋數(shù)據(jù)采集流程,幫助構(gòu)建更可靠、更符合人類偏好的大語言模型。另據(jù)悉,該項目的論文被用戶界面軟件與技術(shù)研討會(UIST,User Interface Software and Technology)2025 接收,據(jù)了解 UIST 是是人機(jī)交互領(lǐng)域的頂會之一,將于 2025 年 9 月于韓國釜山召開,該會議方向主要集中在用戶界面軟件與硬件技術(shù)的創(chuàng)新。
圖 | 史丹青(來源:sdq.github.io)
本次論文的作者史丹青博士目前就職于英國劍橋大學(xué)工程系,擔(dān)任副研究員(博士后),從事人智交互(Human-AI Interaction)的研究。此前,他曾就職于芬蘭人工智能中心,博士畢業(yè)于同濟(jì)大學(xué),本科畢業(yè)于華東師范大學(xué)。他的研究致力于“讓 AI 更懂人”,包含對人類行為計算建模與 AI 的交互式對齊。其學(xué)術(shù)成果多次獲得人機(jī)交互與可視化領(lǐng)域頂級會議 CHI2025、CHI2024、PacificVis24 等最佳論文提名獎。
他與芬蘭 Aalto 的 Antti Oulasvirta 教授和瑞典 KTH 的 Tino Weinkauf 教授組成的研究團(tuán)隊在人智交互領(lǐng)域長期合作,在該研究之前他們已經(jīng)積累了一系列面向機(jī)器人領(lǐng)域的交互式 AI 對齊研究工作,包括通過交互式調(diào)節(jié)獎勵函數(shù)來控制 Agent 的動作行為 [2],以及運(yùn)用層次分組可視化技術(shù)提升 AI 對齊的效率 [3]。這次工作的重心則是希望將交互式 AI 對齊的工作從機(jī)器人領(lǐng)域擴(kuò)展到大模型的應(yīng)用中。
(來源:資料圖)
圖 | 運(yùn)用層次分組可視化技術(shù)提升對齊的效率 [4](來源:資料圖)
與此同時,本次研究項目是他在瑞士蘇黎世聯(lián)邦理工研究訪問期間完成的,合作方的是 Mennatallah El-Assady 教授與程富瑞博士。Mennatallah El-Assady 教授和程富瑞博士在交互式機(jī)器學(xué)習(xí)和可解釋性機(jī)器學(xué)習(xí),尤其是在大模型的交互式文本分析上有著大量的研究積累,這次合作將雙方團(tuán)隊的優(yōu)勢加以有效結(jié)合,成功地將交互式 AI 對齊用于了大模型的文本分析。
參考資料:
1.Shi, Danqing, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, and Mennatallah El-Assady. DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition. To appear in UIST 2025.
2.Scott Armstrong, William B Denniston Jr, and Matt M Gordon. 1975. The use of the decomposition principle in making judgments.Organizational behavior and human performance14, 2 (1975), 257–263.
3.Shi, Danqing, Shibei Zhu, Tino Weinkauf, and Antti Oulasvirta. Interactive Reward Tuning: Interactive Visualization for Preference Elicitation. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 9254-9261. IEEE, 2024.
4.Kompatscher, Jan, Danqing Shi, Giovanna Varni, Tino Weinkauf, and Antti Oulasvirta. Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2507.04340 (2025).