AI 對(duì)齊(AI alignment)是目前大模型訓(xùn)練與優(yōu)化過(guò)程中不可或缺的環(huán)節(jié),目前廣泛使用的方法包括基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning from Human Feedback)和直接偏好優(yōu)化(DPO,Direct Preference Optimization),都需要收集高質(zhì)量的人類(lèi)偏好反饋數(shù)據(jù)。然而,現(xiàn)有界面要求標(biāo)注者直接對(duì)比長(zhǎng)篇文本,這種方式在認(rèn)知上具有挑戰(zhàn)性,特別是當(dāng)文本較長(zhǎng)或內(nèi)容不熟悉時(shí),用戶往往無(wú)法精細(xì)地閱讀、記憶所有內(nèi)容以及識(shí)別文本中的所有差異,導(dǎo)致反饋質(zhì)量不高,從而影響到 AI 對(duì)齊的質(zhì)量。
(來(lái)源:資料圖)
目前尚未有研究提出如何系統(tǒng)地改善這類(lèi)反饋質(zhì)量。在近期一項(xiàng)研究之中,人機(jī)交互學(xué)者史丹青博士從用戶反饋的角度進(jìn)行展開(kāi),希望解決的核心問(wèn)題是:
? 如何提升人類(lèi)反饋(特別是長(zhǎng)篇文本比較場(chǎng)景)的準(zhǔn)確性和質(zhì)量?
? 如何減少用戶在提供反饋過(guò)程中的認(rèn)知負(fù)擔(dān)和出錯(cuò)率?
為此,他和所在團(tuán)隊(duì)提出并采用了“分解原則”[2],這是指將復(fù)雜的問(wèn)題分解成更小、更容易判斷的單一信息點(diǎn),分別對(duì)每個(gè)組成部分進(jìn)行判斷,然后將各組成部分的預(yù)測(cè)結(jié)合起來(lái),得出最終預(yù)測(cè)結(jié)果。這種方法旨在簡(jiǎn)化復(fù)雜任務(wù)為, 在處理不確定性或復(fù)雜情況時(shí)特別有用,從而提高反饋質(zhì)量。
據(jù)介紹,本研究基于分解原則提出了 DxHF 的方法,通過(guò)“交互式分解”的方式改善人類(lèi)提供反饋的過(guò)程。具體成果包括:
? 交互式分解技術(shù):將長(zhǎng)篇文本分解成簡(jiǎn)潔易讀的單個(gè)陳述,方便用戶快速瀏覽和對(duì)比。
? 視覺(jué)輔助用戶界面:通過(guò)對(duì)每個(gè)陳述信息進(jìn)行相關(guān)性評(píng)分,并以視覺(jué)不透明度編碼突出重點(diǎn)信息,同時(shí)連接語(yǔ)義相似的陳述信息,幫助用戶快速識(shí)別關(guān)鍵差異。
(來(lái)源:資料圖)
實(shí)驗(yàn)中的關(guān)鍵發(fā)現(xiàn)包括:DxHF 顯著提高了用戶反饋的準(zhǔn)確性(平均提高約 5%),特別是在用戶對(duì)判斷結(jié)果不確定時(shí),準(zhǔn)確性提升更明顯(約 6.4%);雖然略微增加了反饋用時(shí),但能有效提高決策信心并降低用戶認(rèn)知負(fù)擔(dān)。
據(jù)介紹,整個(gè)研究過(guò)程可以分為三個(gè)主要階段:
第一階段包括研究問(wèn)題定義與理論方法探索。研究團(tuán)隊(duì)對(duì)大模型對(duì)齊中收集高質(zhì)量反饋數(shù)據(jù)困難的問(wèn)題進(jìn)行了深入的文獻(xiàn)回顧和需求分析,從人機(jī)交互角度出發(fā),明確提出要探索一種新型用戶界面技術(shù),以降低用戶的認(rèn)知負(fù)擔(dān),提升反饋質(zhì)量。在確定研究方向之后,研究團(tuán)隊(duì)查閱大量輔助人類(lèi)決策的相關(guān)文獻(xiàn),定位到了有助于人們作出更加準(zhǔn)確的判斷的“分解原則”。受此啟發(fā),研究團(tuán)隊(duì)提出將文本分解為獨(dú)立的、易于理解的簡(jiǎn)單陳述信息,從而使反饋的比較過(guò)程變得更加容易掌握。
第二階段為技術(shù)實(shí)現(xiàn)與界面設(shè)計(jì)?;诜纸庠瓌t,研究團(tuán)隊(duì)通過(guò)反復(fù)的內(nèi)部討論、原型設(shè)計(jì)與迭代,測(cè)試了一系列交互界面。這一階段涉及到大量具體的設(shè)計(jì)決策,比如如何準(zhǔn)確地將長(zhǎng)句分解為單一的語(yǔ)義單元,如何突出顯示最關(guān)鍵的部分,以及如何將兩組相似文本之間的語(yǔ)義聯(lián)系直觀呈現(xiàn)出來(lái)。在正式投入實(shí)驗(yàn)前,團(tuán)隊(duì)也進(jìn)行了大量的設(shè)計(jì)嘗試、前期預(yù)研與消融實(shí)驗(yàn)測(cè)試,希望清晰又不失整體性地呈現(xiàn)完整的分解信息。
(來(lái)源:資料圖)
第三階段為技術(shù)仿真與實(shí)驗(yàn)驗(yàn)證。在投入正式的用戶實(shí)驗(yàn)之前,研究團(tuán)隊(duì)通過(guò)仿真對(duì)技術(shù)進(jìn)行評(píng)估。仿真過(guò)程中使用 AI 來(lái)模擬真實(shí)用戶,通過(guò)調(diào)整 AI 用戶的“理性程度”,研究人員清晰地看到了分解技術(shù)在不同決策能力用戶中起到了積極的作用。隨后研究團(tuán)隊(duì)實(shí)施了一項(xiàng)大規(guī)模的在線眾包實(shí)驗(yàn),超過(guò) 160 名參與者通過(guò)網(wǎng)絡(luò)眾包平臺(tái)參與,提供真實(shí)的反饋數(shù)據(jù)。研究人員從眾包實(shí)驗(yàn)數(shù)據(jù)中觀察到明顯的效果:DxHF 不僅顯著提高了用戶的反饋準(zhǔn)確性,也幫助用戶提升了決策信心。
在設(shè)計(jì)討論過(guò)程中,項(xiàng)目面臨如何同時(shí)兼顧文本整體性的理解與細(xì)節(jié)性的分析的問(wèn)題。最終的設(shè)計(jì)靈感來(lái)自于一次研討會(huì)上桌邊的折疊宣傳手冊(cè),他們發(fā)現(xiàn)可以通過(guò)折疊與拉伸的方法展示信息。于是,該團(tuán)隊(duì)借用該物理交互的隱喻來(lái)設(shè)計(jì)界面,不僅保留了整體閱讀的完整性,也讓用戶可以自由地深入細(xì)節(jié)。在開(kāi)展用戶實(shí)驗(yàn)時(shí),研究團(tuán)隊(duì)特別留意到參與者對(duì)這一設(shè)計(jì)的反應(yīng)。參與者反饋了自己對(duì)于反饋中自由選擇比較方式的偏好,對(duì)簡(jiǎn)單的問(wèn)題比較無(wú)需展開(kāi)細(xì)節(jié)減少了繁雜的信息負(fù)荷,而對(duì)復(fù)雜比較任務(wù)通過(guò)展開(kāi)能夠自由地探索更深層次的信息。
(來(lái)源:資料圖)
審稿人認(rèn)為本研究所關(guān)注問(wèn)題與當(dāng)前 AI 領(lǐng)域關(guān)注的熱點(diǎn)具有很強(qiáng)的相關(guān)性,其指出研究團(tuán)隊(duì)從人機(jī)交互的視角入手,探索如何緩解人類(lèi)在 AI 對(duì)齊過(guò)程中所面臨的復(fù)雜認(rèn)知任務(wù),并認(rèn)為該方向十分具有前景。同時(shí),審稿人認(rèn)為本研究提出的方法不僅對(duì) AI 對(duì)齊中高質(zhì)量數(shù)據(jù)標(biāo)注這一具體問(wèn)題具有重要貢獻(xiàn),對(duì)長(zhǎng)篇文本對(duì)比任務(wù)中人所面臨的認(rèn)知挑戰(zhàn)方面具備更廣泛的應(yīng)用潛力,能夠進(jìn)一步拓展至其他需要用戶快速做出多文本對(duì)比判斷的場(chǎng)景,諸如法律文書(shū)比對(duì)、政策比較等信息檢索和決策輔助領(lǐng)域中發(fā)揮作用,這些領(lǐng)域均對(duì)文本的精細(xì)比對(duì)提出了極高要求。
預(yù)計(jì)該方法可以廣泛用于改進(jìn)目前面向 AI 對(duì)齊的人類(lèi)反饋數(shù)據(jù)采集流程,幫助構(gòu)建更可靠、更符合人類(lèi)偏好的大語(yǔ)言模型。另?yè)?jù)悉,該項(xiàng)目的論文被用戶界面軟件與技術(shù)研討會(huì)(UIST,User Interface Software and Technology)2025 接收,據(jù)了解 UIST 是是人機(jī)交互領(lǐng)域的頂會(huì)之一,將于 2025 年 9 月于韓國(guó)釜山召開(kāi),該會(huì)議方向主要集中在用戶界面軟件與硬件技術(shù)的創(chuàng)新。
圖 | 史丹青(來(lái)源:sdq.github.io)
本次論文的作者史丹青博士目前就職于英國(guó)劍橋大學(xué)工程系,擔(dān)任副研究員(博士后),從事人智交互(Human-AI Interaction)的研究。此前,他曾就職于芬蘭人工智能中心,博士畢業(yè)于同濟(jì)大學(xué),本科畢業(yè)于華東師范大學(xué)。他的研究致力于“讓 AI 更懂人”,包含對(duì)人類(lèi)行為計(jì)算建模與 AI 的交互式對(duì)齊。其學(xué)術(shù)成果多次獲得人機(jī)交互與可視化領(lǐng)域頂級(jí)會(huì)議 CHI2025、CHI2024、PacificVis24 等最佳論文提名獎(jiǎng)。
他與芬蘭 Aalto 的 Antti Oulasvirta 教授和瑞典 KTH 的 Tino Weinkauf 教授組成的研究團(tuán)隊(duì)在人智交互領(lǐng)域長(zhǎng)期合作,在該研究之前他們已經(jīng)積累了一系列面向機(jī)器人領(lǐng)域的交互式 AI 對(duì)齊研究工作,包括通過(guò)交互式調(diào)節(jié)獎(jiǎng)勵(lì)函數(shù)來(lái)控制 Agent 的動(dòng)作行為 [2],以及運(yùn)用層次分組可視化技術(shù)提升 AI 對(duì)齊的效率 [3]。這次工作的重心則是希望將交互式 AI 對(duì)齊的工作從機(jī)器人領(lǐng)域擴(kuò)展到大模型的應(yīng)用中。
(來(lái)源:資料圖)
圖 | 運(yùn)用層次分組可視化技術(shù)提升對(duì)齊的效率 [4](來(lái)源:資料圖)
與此同時(shí),本次研究項(xiàng)目是他在瑞士蘇黎世聯(lián)邦理工研究訪問(wèn)期間完成的,合作方的是 Mennatallah El-Assady 教授與程富瑞博士。Mennatallah El-Assady 教授和程富瑞博士在交互式機(jī)器學(xué)習(xí)和可解釋性機(jī)器學(xué)習(xí),尤其是在大模型的交互式文本分析上有著大量的研究積累,這次合作將雙方團(tuán)隊(duì)的優(yōu)勢(shì)加以有效結(jié)合,成功地將交互式 AI 對(duì)齊用于了大模型的文本分析。
參考資料:
1.Shi, Danqing, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, and Mennatallah El-Assady. DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition. To appear in UIST 2025.
2.Scott Armstrong, William B Denniston Jr, and Matt M Gordon. 1975. The use of the decomposition principle in making judgments.Organizational behavior and human performance14, 2 (1975), 257–263.
3.Shi, Danqing, Shibei Zhu, Tino Weinkauf, and Antti Oulasvirta. Interactive Reward Tuning: Interactive Visualization for Preference Elicitation. In 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 9254-9261. IEEE, 2024.
4.Kompatscher, Jan, Danqing Shi, Giovanna Varni, Tino Weinkauf, and Antti Oulasvirta. Interactive Groupwise Comparison for Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2507.04340 (2025).