發(fā)布時(shí)間:2025-09-06 來(lái)源:地廣人稀網(wǎng)作者:Tmac曼巴pg
這項(xiàng)由卡內(nèi)基梅隆大學(xué)彭藝豪、Adobe研究院李丁澤宇、卡內(nèi)基梅隆大學(xué)杰弗里·比格姆以及加州大學(xué)伯克利分校艾米·帕維爾共同完成的研究發(fā)表于2025年9月28日至10月1日在韓國(guó)釜山舉行的第38屆ACM用戶界面軟件與技術(shù)年會(huì)(UIST '25)。這項(xiàng)突破性研究首次系統(tǒng)性地解決了盲人和低視力用戶在使用AI界面助手時(shí)面臨的選擇權(quán)缺失問(wèn)題。感興趣的讀者可以通過(guò)DOI鏈接https://doi.org/10.1145/3746059.3747797訪問(wèn)完整論文。
現(xiàn)代生活中,我們每天都在與各種數(shù)字界面打交道,從購(gòu)物網(wǎng)站到社交媒體,從辦公軟件到娛樂(lè)應(yīng)用。對(duì)于視力正常的用戶來(lái)說(shuō),這些操作可能輕而易舉,但對(duì)于盲人和低視力用戶而言,每一次點(diǎn)擊、每一個(gè)選擇都可能是一場(chǎng)挑戰(zhàn)。近年來(lái),人工智能界面助手的出現(xiàn)似乎為這個(gè)問(wèn)題帶來(lái)了希望——用戶只需說(shuō)出需求,AI就能自動(dòng)完成復(fù)雜的操作任務(wù)。然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)被普遍忽視卻至關(guān)重要的問(wèn)題:當(dāng)AI為了效率而自動(dòng)做出選擇時(shí),用戶反而失去了表達(dá)個(gè)人偏好的機(jī)會(huì)。
設(shè)想這樣一個(gè)場(chǎng)景:當(dāng)你告訴AI助手"幫我買最便宜的氣泡水"時(shí),它確實(shí)找到了價(jià)格最低的商品并完成了購(gòu)買,看似完美地執(zhí)行了任務(wù)。但你卻永遠(yuǎn)不知道,在相同價(jià)格的選項(xiàng)中,還有你更喜歡的口味,或者評(píng)分更高的品牌。AI的"貼心"自動(dòng)化反而剝奪了你做出個(gè)性化選擇的權(quán)利。這種現(xiàn)象在盲人用戶群體中尤為突出,因?yàn)樗麄儫o(wú)法像視力正常的用戶那樣快速瀏覽界面,發(fā)現(xiàn)AI忽略的其他可能性。
為了深入理解這個(gè)問(wèn)題,研究團(tuán)隊(duì)首先進(jìn)行了一項(xiàng)為期一周的田野調(diào)查,邀請(qǐng)四位盲人和低視力用戶在日常生活中使用現(xiàn)有的AI界面助手。結(jié)果令人震驚:在需要暫停詢問(wèn)用戶偏好的情況下,95%的用戶根本沒(méi)有意識(shí)到還有其他選擇存在。用戶們完成了看似成功的任務(wù),卻錯(cuò)過(guò)了更符合個(gè)人需求的選項(xiàng)。這就像是有人代替你點(diǎn)餐,雖然最終上了一道菜,但你永遠(yuǎn)不知道菜單上其實(shí)還有你更喜歡的其他菜品。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為"Morae"的智能界面助手。Morae這個(gè)名字來(lái)源于拉丁語(yǔ)中的"mora"(時(shí)間單位),象征著在自動(dòng)化過(guò)程中適時(shí)的暫停。與傳統(tǒng)的AI助手不同,Morae具備一種類似"察言觀色"的能力——它能夠智能識(shí)別什么時(shí)候應(yīng)該停下來(lái)詢問(wèn)用戶的偏好,什么時(shí)候可以繼續(xù)自動(dòng)執(zhí)行任務(wù)。
研究團(tuán)隊(duì)將這種能力比作一位優(yōu)秀的服務(wù)員。普通服務(wù)員可能會(huì)根據(jù)你的簡(jiǎn)單要求直接上菜,而優(yōu)秀的服務(wù)員則會(huì)在關(guān)鍵時(shí)刻詢問(wèn):"您希望牛排幾分熟?""需要搭配什么醬汁?"Morae正是這樣一位"數(shù)字服務(wù)員",它通過(guò)復(fù)雜的算法分析用戶命令和界面狀態(tài),判斷何時(shí)需要用戶做出選擇,何時(shí)可以繼續(xù)自動(dòng)化執(zhí)行。
一、智能暫停的藝術(shù):讓AI學(xué)會(huì)"看眼色"
傳統(tǒng)的AI界面助手就像一臺(tái)高效但缺乏情商的機(jī)器,它們專注于快速完成任務(wù),卻往往忽略了用戶可能存在的不同偏好。Morae的核心創(chuàng)新在于開(kāi)發(fā)了一套"動(dòng)態(tài)模糊選擇驗(yàn)證"機(jī)制,這套機(jī)制就像給AI裝上了一雙善于觀察的眼睛,讓它能夠識(shí)別什么時(shí)候需要征求用戶意見(jiàn)。
這個(gè)機(jī)制的工作原理可以用一個(gè)簡(jiǎn)單的比喻來(lái)理解。當(dāng)你走進(jìn)一家餐廳,如果菜單上只有一道菜,服務(wù)員自然會(huì)直接為你下單。但如果有多道相似的菜品,或者菜品的某些關(guān)鍵信息(如辣度、分量)需要你來(lái)決定,聰明的服務(wù)員就會(huì)主動(dòng)詢問(wèn)你的偏好。Morae正是模擬了這種人性化的判斷過(guò)程。
在每個(gè)操作步驟中,Morae都會(huì)進(jìn)行三個(gè)階段的分析。第一階段,它識(shí)別當(dāng)前步驟是否屬于"關(guān)鍵行動(dòng)"——那些涉及用戶定義偏好或需要重要界面細(xì)節(jié)的操作。就像在餐廳點(diǎn)餐時(shí),選擇主菜是關(guān)鍵行動(dòng),而遞送餐具則不是。第二階段,Morae會(huì)針對(duì)當(dāng)前情況提出一系列內(nèi)部驗(yàn)證問(wèn)題,比如"是否存在多個(gè)符合用戶要求的選項(xiàng)?""用戶的命令是否存在歧義?"第三階段,基于這些問(wèn)題的答案,Morae決定是繼續(xù)執(zhí)行、暫停詢問(wèn),還是需要收集更多信息。
這種智能判斷并非簡(jiǎn)單的規(guī)則匹配,而是基于大型多模態(tài)模型(類似于能夠同時(shí)理解文字和圖像的高級(jí)AI系統(tǒng))的復(fù)雜推理。Morae不僅能夠分析用戶的文字命令,還能"看懂"當(dāng)前的界面狀態(tài),理解按鈕、選項(xiàng)和內(nèi)容的含義,就像一個(gè)既能聽(tīng)懂你說(shuō)話又能看懂屏幕的智能助手。
研究團(tuán)隊(duì)特別強(qiáng)調(diào),Morae的暫停決策并非隨意為之,而是經(jīng)過(guò)精心平衡的結(jié)果。過(guò)多的暫停會(huì)讓用戶感到煩躁,就像一個(gè)過(guò)分殷勤的服務(wù)員不停地打擾你用餐;過(guò)少的暫停則可能錯(cuò)過(guò)重要的選擇機(jī)會(huì),讓用戶錯(cuò)失更好的選項(xiàng)。通過(guò)對(duì)真實(shí)用戶數(shù)據(jù)的深度分析,研究團(tuán)隊(duì)找到了這個(gè)平衡點(diǎn),讓Morae能夠在恰當(dāng)?shù)臅r(shí)機(jī)提供恰當(dāng)?shù)倪x擇。
更重要的是,當(dāng)Morae識(shí)別到需要用戶輸入時(shí),它不會(huì)簡(jiǎn)單地彈出一個(gè)冷冰冰的對(duì)話框,而是會(huì)動(dòng)態(tài)生成一個(gè)直觀友好的選擇界面。這個(gè)界面會(huì)清晰地展示所有可用選項(xiàng)的關(guān)鍵差異,比如不同商品的價(jià)格、評(píng)分、特色等,讓盲人用戶能夠通過(guò)屏幕閱讀器輕松理解和選擇。這就像是一位貼心的朋友,不僅告訴你有哪些選擇,還詳細(xì)解釋每個(gè)選擇的優(yōu)缺點(diǎn),幫助你做出最符合自己需求的決定。
二、真實(shí)世界的考驗(yàn):AI助手在野外的表現(xiàn)
為了深入了解盲人和低視力用戶在使用AI界面助手時(shí)的真實(shí)體驗(yàn),研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)為期一周的田野調(diào)查。這項(xiàng)調(diào)查的獨(dú)特之處在于,它不是在實(shí)驗(yàn)室的受控環(huán)境中進(jìn)行,而是讓參與者在日常生活中自然地使用AI助手完成各種真實(shí)任務(wù)。這種方法就像是讓一位廚師在家庭廚房而非專業(yè)廚房中展示廚藝,能夠更真實(shí)地反映實(shí)際使用效果。
四位參與者涵蓋了不同的視力狀況和職業(yè)背景,包括會(huì)計(jì)師、教師、軟件工程師和學(xué)校行政人員。他們的年齡跨度從29歲到50歲,有些是先天性視力障礙,有些是后天獲得性視力障礙。這種多樣性確保了研究結(jié)果能夠代表更廣泛的用戶群體。重要的是,所有參與者此前都沒(méi)有使用過(guò)AI界面助手的經(jīng)驗(yàn),這讓研究團(tuán)隊(duì)能夠觀察到最原始、最真實(shí)的用戶反應(yīng)。
在一周的時(shí)間里,研究團(tuán)隊(duì)收集到了638個(gè)獨(dú)特的用戶查詢請(qǐng)求,涵蓋了40個(gè)不同的網(wǎng)站和應(yīng)用平臺(tái)。這些請(qǐng)求就像一幅豐富的拼圖,展現(xiàn)了盲人用戶在數(shù)字世界中的真實(shí)需求和挑戰(zhàn)。從網(wǎng)上購(gòu)物到預(yù)訂旅行,從編輯文檔到管理日程,參與者們嘗試用AI助手完成各種日常任務(wù)。
分析結(jié)果揭示了一個(gè)令人深思的現(xiàn)象。在所有的有效查詢中,約有5%的請(qǐng)求是AI助手根本無(wú)法完成的——就像是顧客在中餐廳要求制作意大利面,需求本身就不匹配。但更值得關(guān)注的是,在看似"成功完成"的任務(wù)中,實(shí)際上有相當(dāng)一部分存在問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),19%的任務(wù)存在用戶偏好不明確的情況,比如用戶要求預(yù)訂酒店但沒(méi)有指定日期、房型或預(yù)算范圍。另外13%的任務(wù)雖然用戶需求明確,但存在多個(gè)同樣符合要求的選項(xiàng),AI助手往往會(huì)隨意選擇其中一個(gè),而不會(huì)向用戶展示其他可能更合適的選擇。
更令人擔(dān)憂的是用戶的認(rèn)知盲區(qū)。在后續(xù)訪談中,研究團(tuán)隊(duì)發(fā)現(xiàn)95%的用戶完全沒(méi)有意識(shí)到在那些看似成功的任務(wù)中,其實(shí)還存在其他可能更符合他們需求的選擇。這種現(xiàn)象就像是一個(gè)人委托朋友代為購(gòu)買生日禮物,朋友確實(shí)買到了符合預(yù)算的禮物,但購(gòu)買者從未了解到商店里其實(shí)還有很多其他更有趣、更合適的選項(xiàng)。
這種認(rèn)知盲區(qū)的形成有其深層原因。對(duì)于盲人和低視力用戶而言,探索和理解復(fù)雜的數(shù)字界面本身就是一個(gè)挑戰(zhàn)。當(dāng)AI助手承諾能夠自動(dòng)完成這些復(fù)雜任務(wù)時(shí),用戶自然會(huì)選擇信任和依賴這種便利。然而,這種便利的代價(jià)是選擇權(quán)的喪失。用戶可能永遠(yuǎn)不會(huì)知道自己錯(cuò)過(guò)了什么,就像是一個(gè)人從未離開(kāi)過(guò)自己的小鎮(zhèn),因此也無(wú)法想象外面世界的精彩。
研究團(tuán)隊(duì)還發(fā)現(xiàn),即使在任務(wù)成功完成的情況下,用戶對(duì)于AI助手的行為過(guò)程往往缺乏清晰的理解。AI助手的操作對(duì)他們來(lái)說(shuō)就像是一個(gè)黑盒子——輸入需求,得到結(jié)果,但中間的過(guò)程完全不透明。這種不透明性不僅降低了用戶的控制感,也增加了出錯(cuò)時(shí)的困惑和挫折感。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)總結(jié)出了五個(gè)關(guān)鍵的設(shè)計(jì)原則,為開(kāi)發(fā)更好的無(wú)障礙AI界面助手指明了方向。這些原則強(qiáng)調(diào)了在自動(dòng)化和用戶控制之間找到平衡的重要性,就像是在效率和人性化之間搭建一座橋梁,讓技術(shù)真正服務(wù)于人的需求。
三、Morae的技術(shù)魔法:讓機(jī)器理解人心
Morae的技術(shù)核心就像是一個(gè)多才多藝的管家,它不僅能夠理解主人的指令,還能觀察環(huán)境變化,在恰當(dāng)?shù)臅r(shí)機(jī)提供恰當(dāng)?shù)慕ㄗh。這種能力的實(shí)現(xiàn)依賴于幾個(gè)相互配合的技術(shù)組件,它們共同構(gòu)成了一個(gè)智能決策系統(tǒng)。
最關(guān)鍵的組件是"動(dòng)態(tài)模糊選擇驗(yàn)證"機(jī)制。這個(gè)機(jī)制的工作方式可以比作一位經(jīng)驗(yàn)豐富的導(dǎo)購(gòu)員。當(dāng)顧客說(shuō)"我想要一臺(tái)筆記本電腦"時(shí),導(dǎo)購(gòu)員不會(huì)立即推薦第一臺(tái)看到的電腦,而會(huì)先評(píng)估這個(gè)需求的模糊程度。如果顧客進(jìn)一步說(shuō)"用來(lái)辦公,預(yù)算5000元",需求就變得更加明確。但如果有多臺(tái)電腦都符合這個(gè)條件,聰明的導(dǎo)購(gòu)員就會(huì)詢問(wèn):"您更看重輕薄便攜還是性能強(qiáng)勁?"或者"您對(duì)屏幕尺寸有特別要求嗎?"
Morae的算法模擬了這種人性化的判斷過(guò)程。在每個(gè)操作步驟中,它都會(huì)分析當(dāng)前的狀況:用戶的原始命令是什么?當(dāng)前界面展示了哪些選項(xiàng)?之前已經(jīng)執(zhí)行了哪些操作?基于這些信息,Morae會(huì)生成一系列內(nèi)部驗(yàn)證問(wèn)題,比如"是否存在多個(gè)符合條件的選項(xiàng)?""用戶的偏好是否足夠明確?""當(dāng)前顯示的信息是否足夠用戶做出明智選擇?"
這種內(nèi)部對(duì)話過(guò)程是Morae智能的體現(xiàn)。它不是簡(jiǎn)單地按照預(yù)設(shè)規(guī)則執(zhí)行,而是在每個(gè)步驟都進(jìn)行復(fù)雜的推理判斷。就像一個(gè)人在做決定時(shí)會(huì)在心里權(quán)衡各種因素一樣,Morae也會(huì)"思考"當(dāng)前情況是否需要用戶介入。
當(dāng)Morae判斷需要用戶參與決策時(shí),它不會(huì)簡(jiǎn)單地拋出一個(gè)問(wèn)題就停止工作,而是會(huì)動(dòng)態(tài)生成一個(gè)專門定制的交互界面。這個(gè)界面就像是一個(gè)貼心的比較購(gòu)物助手,它會(huì)清晰地展示所有可選項(xiàng)的關(guān)鍵差異。比如,當(dāng)用戶要求購(gòu)買"評(píng)分最高的啤酒"而發(fā)現(xiàn)有多款啤酒評(píng)分相同時(shí),Morae會(huì)生成一個(gè)界面,展示這些啤酒的不同特點(diǎn):品牌、口味、酒精度、價(jià)格等,讓用戶能夠基于這些詳細(xì)信息做出選擇。
更重要的是,這個(gè)交互界面專門為屏幕閱讀器用戶進(jìn)行了優(yōu)化。屏幕閱讀器是盲人用戶訪問(wèn)數(shù)字內(nèi)容的主要工具,它會(huì)將屏幕上的文字轉(zhuǎn)換為語(yǔ)音播報(bào)。Morae生成的界面采用了清晰的結(jié)構(gòu)化布局,使用適當(dāng)?shù)臉?biāo)題層級(jí)和標(biāo)簽,確保屏幕閱讀器能夠以邏輯順序播報(bào)信息,用戶可以輕松地在不同選項(xiàng)之間導(dǎo)航和比較。
除了視覺(jué)界面優(yōu)化,Morae還提供了豐富的音頻反饋機(jī)制。就像是一個(gè)有聲的操作指南,Morae會(huì)在執(zhí)行每個(gè)操作時(shí)提供相應(yīng)的音頻提示:點(diǎn)擊按鈕時(shí)有點(diǎn)擊聲,輸入文字時(shí)有打字聲,遇到需要用戶選擇的情況時(shí)有專門的提示音。這種多感官的反饋機(jī)制幫助用戶保持對(duì)整個(gè)過(guò)程的掌控感,就像是在黑暗中行走時(shí),腳步聲和環(huán)境音幫助我們了解周圍情況一樣。
另一個(gè)重要特性是Morae的學(xué)習(xí)能力。它不僅能回答界面相關(guān)的問(wèn)題,比如"這個(gè)網(wǎng)站上有哪些功能可用?",還能提供具體的操作指導(dǎo),包括針對(duì)不同屏幕閱讀器的特定快捷鍵建議。當(dāng)用戶詢問(wèn)"如何在Gmail中查找最近的郵件?"時(shí),Morae不僅會(huì)解釋步驟,還會(huì)根據(jù)用戶使用的屏幕閱讀器(如NVDA、JAWS或VoiceOver)提供相應(yīng)的鍵盤快捷鍵。這就像是一個(gè)既懂技術(shù)又了解用戶工具的私人導(dǎo)師,能夠提供最貼心實(shí)用的指導(dǎo)。
四、數(shù)字實(shí)驗(yàn)室里的較量:Morae與其他AI助手的終極對(duì)決
為了驗(yàn)證Morae的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了一場(chǎng)嚴(yán)格的技術(shù)對(duì)比測(cè)試。這場(chǎng)測(cè)試就像是讓不同的廚師使用相同的食材和廚具,在相同的條件下制作菜肴,然后比較最終的成果質(zhì)量。測(cè)試涵蓋了256個(gè)不同的任務(wù),跨越了8種不同類型的用戶界面,確保了評(píng)估的全面性和公正性。
測(cè)試中的"選手"包括了幾種不同的方法。最基礎(chǔ)的是簡(jiǎn)單提示方法,就像給廚師一張簡(jiǎn)單的食譜,告訴他們"在不確定的時(shí)候問(wèn)問(wèn)客人"。稍微復(fù)雜一點(diǎn)的是"首步驗(yàn)證"方法,類似于廚師在開(kāi)始烹飪前就詢問(wèn)客人的所有偏好。更進(jìn)一步的是"逐步驗(yàn)證"方法,廚師會(huì)在每個(gè)烹飪步驟中都考慮是否需要征詢客人意見(jiàn)。而Morae采用的"綜合規(guī)劃驗(yàn)證"方法則像是一位經(jīng)驗(yàn)豐富的主廚,既有整體的烹飪計(jì)劃,又能在關(guān)鍵時(shí)刻靈活調(diào)整并詢問(wèn)客人偏好。
測(cè)試中最強(qiáng)勁的對(duì)手是OpenAI公司最新發(fā)布的Operator助手。這是目前業(yè)界公認(rèn)的最先進(jìn)的AI界面助手之一,專門針對(duì)用戶界面操作進(jìn)行了優(yōu)化訓(xùn)練。將Morae與Operator進(jìn)行比較,就像是讓一位新晉廚師挑戰(zhàn)米其林星級(jí)餐廳的主廚,挑戰(zhàn)的難度可想而知。
測(cè)試結(jié)果令人印象深刻。Morae在綜合任務(wù)成功率上達(dá)到了55.2%,比Operator的53.1%高出了2.1個(gè)百分點(diǎn)。雖然這個(gè)差距看起來(lái)不大,但在需要暫停詢問(wèn)用戶偏好的任務(wù)中,Morae的優(yōu)勢(shì)更加明顯,成功率達(dá)到了65.6%,而Operator只有50.8%。這就像是在需要與客人互動(dòng)的烹飪比賽中,善于溝通的廚師明顯勝過(guò)了只專注于技術(shù)的廚師。
更重要的是暫停決策的準(zhǔn)確性。研究團(tuán)隊(duì)發(fā)現(xiàn),Morae在判斷何時(shí)應(yīng)該暫停詢問(wèn)用戶方面表現(xiàn)出了更高的智能。它的準(zhǔn)確率(precision)達(dá)到了59.7%,召回率(recall)達(dá)到了69.8%,綜合F1分?jǐn)?shù)為64.4%。這些數(shù)字背后的含義是:Morae既避免了過(guò)多的不必要打擾,又較少錯(cuò)過(guò)真正需要用戶參與的關(guān)鍵決策時(shí)刻。
這種平衡的重要性不能被低估。過(guò)多的暫停會(huì)讓用戶感到煩躁,就像一個(gè)過(guò)分謹(jǐn)慎的助手不停地詢問(wèn)每個(gè)細(xì)節(jié),最終讓人不勝其煩。過(guò)少的暫停則可能錯(cuò)過(guò)重要選擇,讓用戶失去表達(dá)偏好的機(jī)會(huì)。Morae通過(guò)精密的算法實(shí)現(xiàn)了這種微妙的平衡,就像一位經(jīng)驗(yàn)豐富的服務(wù)員,能夠準(zhǔn)確判斷何時(shí)應(yīng)該主動(dòng)詢問(wèn),何時(shí)應(yīng)該安靜執(zhí)行。
測(cè)試還揭示了一個(gè)有趣的現(xiàn)象:傳統(tǒng)的"越多驗(yàn)證越好"的想法在實(shí)際應(yīng)用中并不成立。那些在每個(gè)步驟都進(jìn)行驗(yàn)證的方法雖然理論上更加謹(jǐn)慎,但在實(shí)際使用中反而效果不佳。這是因?yàn)檫^(guò)早的驗(yàn)證可能缺乏足夠的上下文信息,就像在還沒(méi)有看到完整菜單時(shí)就詢問(wèn)客人的偏好一樣,往往得不到有效的答案。Morae的智能之處在于它知道何時(shí)收集足夠信息,何時(shí)進(jìn)行有效詢問(wèn)。
研究團(tuán)隊(duì)特別強(qiáng)調(diào),這些測(cè)試都是在真實(shí)的網(wǎng)絡(luò)環(huán)境中進(jìn)行的,而不是在簡(jiǎn)化的實(shí)驗(yàn)室環(huán)境中。這意味著Morae需要處理真實(shí)網(wǎng)站的復(fù)雜性、不可預(yù)測(cè)性和多樣性,就像一位廚師需要在真實(shí)的廚房環(huán)境中工作,而不是在完美控制的演示廚房中。這種真實(shí)環(huán)境的測(cè)試結(jié)果更能說(shuō)明Morae在實(shí)際應(yīng)用中的可靠性和有效性。
五、真實(shí)用戶的聲音:當(dāng)盲人朋友遇到Morae
技術(shù)指標(biāo)只是故事的一面,真正重要的是真實(shí)用戶的體驗(yàn)感受。研究團(tuán)隊(duì)邀請(qǐng)了10位盲人和低視力用戶參與了一場(chǎng)深度的用戶體驗(yàn)研究,這場(chǎng)研究就像是讓10位食客品嘗不同廚師制作的菜肴,然后詳細(xì)描述他們的感受和偏好。
參與者的背景十分多元化,年齡跨度從28歲到55歲,職業(yè)包括學(xué)生、客服專員、無(wú)障礙顧問(wèn)和軟件工程師。他們都有豐富的屏幕閱讀器使用經(jīng)驗(yàn),對(duì)各種AI輔助工具也有一定了解,但此前都沒(méi)有使用過(guò)AI界面助手。這種多樣性確保了研究結(jié)果的代表性和可信度。
研究采用了交叉對(duì)比的方式,每位參與者都要使用三種不同的AI助手——TaxyAI、Morae和OpenAI Operator——完成相同的任務(wù)。這種設(shè)計(jì)就像是讓同一位食客品嘗不同廚師制作的同一道菜,能夠清晰地比較出差異和優(yōu)劣。任務(wù)涵蓋了三個(gè)常用網(wǎng)站:購(gòu)物網(wǎng)站Target、日程管理工具Google Calendar和文檔編輯器Google Docs,每個(gè)網(wǎng)站都有三個(gè)不同的任務(wù),總共九個(gè)任務(wù)確保了測(cè)試的全面性。
結(jié)果顯示,用戶對(duì)Morae的整體滿意度明顯高于其他兩個(gè)助手。在7分制的評(píng)分中,用戶給Morae的整體有用性評(píng)分達(dá)到了6.50分,而傳統(tǒng)的TaxyAI只有3.20分,即使是先進(jìn)的Operator也只有5.60分。更重要的是,用戶表達(dá)了對(duì)Morae更強(qiáng)的使用信心,平均評(píng)分6.60分,這意味著他們?cè)敢庠谌粘I钪歇?dú)立使用這個(gè)工具。
用戶體驗(yàn)的改善體現(xiàn)在多個(gè)維度。首先是選擇滿意度的顯著提升。參與者使用Morae時(shí)做出的選擇平均有4.03個(gè)符合他們的實(shí)際偏好,而使用Operator時(shí)只有2.98個(gè),使用TaxyAI時(shí)更是只有1.92個(gè)。這種差異就像是由專業(yè)定制師制作的衣服與批量生產(chǎn)服裝之間的區(qū)別,前者能更好地滿足個(gè)人的具體需求。
特別值得關(guān)注的是決策多樣性的增加。研究團(tuán)隊(duì)通過(guò)"決策熵"這個(gè)指標(biāo)來(lái)衡量用戶選擇的多樣性程度。Morae用戶的決策熵值達(dá)到1.58,而Operator用戶只有0.86,TaxyAI用戶更是只有0.22。這意味著使用Morae的用戶能夠做出更加個(gè)性化、更加符合自己獨(dú)特偏好的選擇,而不是被迫接受千篇一律的默認(rèn)選項(xiàng)。
用戶反饋中最常提到的優(yōu)點(diǎn)是Morae的主動(dòng)詢問(wèn)功能。一位參與者這樣描述:"在Target上選擇評(píng)分最高的啤酒或查看產(chǎn)品詳情時(shí),Morae會(huì)清楚地描述所有可用選擇,讓我能夠獨(dú)立做決定,而不像Operator或TaxyAI那樣代替我做選擇,也不會(huì)詳細(xì)解釋和透露潛在的多重選擇。"這種體驗(yàn)就像是有一位貼心的朋友在旁邊,不是替你做決定,而是幫你了解所有選擇,然后讓你自己決定。
另一位參與者在談到Google Calendar的使用體驗(yàn)時(shí)說(shuō):"使用Morae管理日程細(xì)節(jié)很直觀,我總是能清楚地知道哪些字段我還沒(méi)有填寫,或者應(yīng)該從哪些選項(xiàng)中選擇。通過(guò)那些引導(dǎo)我決策過(guò)程的交互界面,我可以更容易地選擇我想要的,同時(shí)了解所有填寫的默認(rèn)值。"這種透明度讓用戶感到更有控制感,而不是被蒙在鼓里。
當(dāng)然,用戶也提出了一些改進(jìn)建議。有參與者表示希望Morae能夠提供更多關(guān)于AI決策信心的信息:"我很欣賞Morae主動(dòng)暫停讓我做決定,但我希望AI能夠分享它對(duì)建議選項(xiàng)的信心程度。一個(gè)信心分?jǐn)?shù)或類似的提示會(huì)幫助我決定何時(shí)需要中斷并自己探索界面。"這種反饋顯示用戶不僅希望有選擇權(quán),還希望了解AI的"思考過(guò)程"。
用戶還建議增加個(gè)性化的暫停機(jī)制,以適應(yīng)不同用戶的偏好和能力水平。一位參與者解釋道:"就我個(gè)人而言,我很樂(lè)意讓AI獨(dú)立進(jìn)行,但其他盲人用戶可能由于監(jiān)控挑戰(zhàn)而更喜歡更頻繁的暫停。一個(gè)讓用戶定義他們偏好的干預(yù)級(jí)別的功能將大大增強(qiáng)體驗(yàn)。"這種個(gè)性化需求反映了用戶群體內(nèi)部的多樣性,也為未來(lái)的改進(jìn)指明了方向。
在實(shí)時(shí)反饋方面,用戶對(duì)Morae的音頻提示系統(tǒng)給予了高度評(píng)價(jià)。每個(gè)操作步驟都配有相應(yīng)的音頻反饋,讓用戶能夠?qū)崟r(shí)了解AI的行為。一位參與者說(shuō):"Morae通過(guò)音頻提示清楚地告知我,每當(dāng)我在Google Calendar中成功修改了日程,并明確確認(rèn)每個(gè)步驟。而使用Operator時(shí),我經(jīng)常不確定我請(qǐng)求的更改是否真的生效了。"這種及時(shí)反饋建立了用戶對(duì)系統(tǒng)的信任,減少了不確定性帶來(lái)的焦慮。
用戶還特別贊賞Morae針對(duì)不同屏幕閱讀器提供的個(gè)性化指導(dǎo)。當(dāng)詢問(wèn)如何執(zhí)行特定任務(wù)時(shí),Morae不僅會(huì)解釋步驟,還會(huì)根據(jù)用戶使用的屏幕閱讀器類型提供相應(yīng)的快捷鍵建議。一位參與者表示:"當(dāng)我詢問(wèn)AI如何在Google Docs中插入頁(yè)碼時(shí),Morae明確地指導(dǎo)我完成每個(gè)步驟,并提供可能的快捷方式,而TaxyAI或Operator則讓我猜測(cè)如果我自己完成任務(wù)應(yīng)該采取什么行動(dòng)。"
有趣的是,研究還發(fā)現(xiàn)了一個(gè)意外的好處:語(yǔ)言障礙的克服。一位參與者在使用中文網(wǎng)站時(shí)用波蘭語(yǔ)發(fā)出命令,結(jié)果發(fā)現(xiàn):"我完全不會(huì)說(shuō)中文,但當(dāng)我用波蘭語(yǔ)輸入時(shí),AI操作成功并用波蘭語(yǔ)提供反饋!AI不僅讓網(wǎng)站在視覺(jué)上變得可訪問(wèn),還消除了語(yǔ)言障礙!"這種跨語(yǔ)言能力展現(xiàn)了AI技術(shù)在無(wú)障礙領(lǐng)域的巨大潛力。
六、未來(lái)的無(wú)限可能:從無(wú)障礙工具到通用解決方案
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了為盲人和低視力用戶提供更好的AI助手這一直接目標(biāo)。它實(shí)際上為整個(gè)人工智能領(lǐng)域提出了一個(gè)重要問(wèn)題:在追求自動(dòng)化效率的同時(shí),我們?nèi)绾未_保用戶仍然保持對(duì)自己選擇的控制權(quán)?這個(gè)問(wèn)題就像是在城市規(guī)劃中平衡便利性和人性化一樣,需要在技術(shù)進(jìn)步和人文關(guān)懷之間找到恰當(dāng)?shù)钠胶恻c(diǎn)。
研究團(tuán)隊(duì)指出,目前大多數(shù)AI界面助手的成功率都在30%到60%之間,這意味著仍有很大的改進(jìn)空間。有趣的是,那些專門為無(wú)障礙用戶設(shè)計(jì)的改進(jìn)往往也能惠及普通用戶。就像是專為輪椅用戶設(shè)計(jì)的坡道也方便了推嬰兒車的家長(zhǎng)一樣,讓AI學(xué)會(huì)在關(guān)鍵時(shí)刻暫停詢問(wèn)用戶偏好,對(duì)所有人都是有益的。
一個(gè)令人興奮的發(fā)現(xiàn)是,當(dāng)AI助手難以處理某個(gè)界面時(shí),往往意味著該界面對(duì)人類用戶來(lái)說(shuō)也存在可用性問(wèn)題。研究中的一位參與者觀察到:"有時(shí)AI就像屏幕閱讀器一樣工作。如果你讓界面對(duì)我們這些屏幕閱讀器用戶可訪問(wèn),你也很可能讓AI更容易導(dǎo)航!"這種觀察揭示了一個(gè)重要洞察:改善界面的無(wú)障礙性不僅有利于殘障用戶,也有利于AI系統(tǒng)的理解和操作。
這種協(xié)同效應(yīng)開(kāi)辟了一個(gè)新的研究方向:AI助手可以成為無(wú)障礙測(cè)試和可用性分析的工具。當(dāng)AI在某個(gè)界面上遇到困難時(shí),這可能提示該界面存在設(shè)計(jì)問(wèn)題。反過(guò)來(lái),提高界面對(duì)AI的友好程度也可能提高其對(duì)人類用戶的友好程度。這就像是讓機(jī)器人和人類共同使用同一個(gè)工具,在這個(gè)過(guò)程中,工具會(huì)變得對(duì)雙方都更加友好。
研究團(tuán)隊(duì)還考慮了技術(shù)擴(kuò)展的可能性。目前Morae主要在網(wǎng)頁(yè)環(huán)境中工作,但其核心理念可以擴(kuò)展到桌面應(yīng)用程序、移動(dòng)應(yīng)用甚至物理設(shè)備的控制。通過(guò)整合更先進(jìn)的視覺(jué)識(shí)別模型和更精確的界面理解能力,未來(lái)的系統(tǒng)可能能夠處理更復(fù)雜、更多樣化的用戶界面。
另一個(gè)重要的發(fā)展方向是個(gè)性化學(xué)習(xí)。雖然Morae目前采用的是二元的暫停策略(暫?;蚶^續(xù)),但研究團(tuán)隊(duì)設(shè)想了一個(gè)更精細(xì)的系統(tǒng),能夠根據(jù)每個(gè)用戶的具體偏好和能力水平調(diào)整其行為。有些用戶可能喜歡更多的控制和確認(rèn),而另一些用戶可能更愿意信任AI的自動(dòng)化決策。未來(lái)的系統(tǒng)可能能夠?qū)W習(xí)和適應(yīng)這些個(gè)人偏好,就像一位經(jīng)驗(yàn)豐富的私人助理逐漸了解主人的習(xí)慣和偏好一樣。
多輪偏好獲取是另一個(gè)值得探索的領(lǐng)域?,F(xiàn)實(shí)中的復(fù)雜任務(wù)往往涉及多個(gè)相互關(guān)聯(lián)的決策點(diǎn),用戶的偏好可能會(huì)隨著任務(wù)進(jìn)展而變化。未來(lái)的系統(tǒng)需要能夠處理這種動(dòng)態(tài)性,在整個(gè)任務(wù)執(zhí)行過(guò)程中維持與用戶的持續(xù)對(duì)話,適應(yīng)不斷變化的需求和偏好。
研究還指出了擴(kuò)大適用人群的可能性。雖然Morae最初是為盲人和低視力用戶設(shè)計(jì)的,但其核心理念——在自動(dòng)化過(guò)程中保持用戶控制權(quán)——對(duì)其他類型的用戶也有價(jià)值。認(rèn)知障礙用戶可能需要更簡(jiǎn)化的反饋和界面控制,運(yùn)動(dòng)障礙用戶可能需要更靈活的交互方式。通過(guò)適當(dāng)?shù)亩ㄖ?,這種主動(dòng)暫停和選擇確認(rèn)的機(jī)制可以惠及更廣泛的用戶群體。
技術(shù)發(fā)展的另一個(gè)方向是與現(xiàn)有輔助技術(shù)的深度整合。目前的系統(tǒng)主要與屏幕閱讀器配合使用,但未來(lái)可以擴(kuò)展到語(yǔ)音識(shí)別系統(tǒng)、眼動(dòng)跟蹤設(shè)備、觸覺(jué)反饋設(shè)備等多種輔助技術(shù)。這種多模態(tài)的整合將為用戶提供更豐富、更自然的交互體驗(yàn)。
最后,研究團(tuán)隊(duì)強(qiáng)調(diào)了這項(xiàng)工作的更廣泛哲學(xué)意義。在人工智能日益普及的時(shí)代,我們需要思考的不僅僅是AI能夠?yàn)槲覀冏鍪裁?,還有我們?nèi)绾未_保自己在這個(gè)過(guò)程中不失去選擇的權(quán)利和控制的能力。Morae代表了一種新的AI設(shè)計(jì)哲學(xué):不是替代人類的判斷,而是增強(qiáng)人類的能力,讓每個(gè)人都能在享受自動(dòng)化便利的同時(shí),保持對(duì)自己生活的主動(dòng)權(quán)。
說(shuō)到底,這項(xiàng)研究最重要的貢獻(xiàn)可能不是開(kāi)發(fā)了一個(gè)更好的AI助手,而是提醒我們?cè)诩夹g(shù)進(jìn)步的道路上不要忘記以人為本的初衷。當(dāng)我們讓機(jī)器變得更聰明時(shí),我們的目標(biāo)不應(yīng)該是讓人類變得多余,而是讓每個(gè)人,無(wú)論其能力如何,都能更好地表達(dá)自己的意愿,做出符合自己需求的選擇。
在這個(gè)AI技術(shù)飛速發(fā)展的時(shí)代,Morae為我們提供了一個(gè)重要的提醒:真正的智能不僅僅在于自動(dòng)化的能力,更在于知道何時(shí)應(yīng)該暫停,傾聽(tīng)人類的聲音。這種智慧,或許正是我們?cè)跇?gòu)建更加包容、更加人性化的技術(shù)世界時(shí)最需要的品質(zhì)。對(duì)于那些希望深入了解這項(xiàng)技術(shù)細(xì)節(jié)和實(shí)施方法的研究者和開(kāi)發(fā)者,完整的論文提供了詳細(xì)的技術(shù)規(guī)范和實(shí)現(xiàn)指南,可以通過(guò)DOI鏈接https://doi.org/10.1145/3746059.3747797進(jìn)行訪問(wèn)。
Q&A
Q1:Morae是什么?它和普通AI助手有什么區(qū)別?
A:Morae是卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)開(kāi)發(fā)的智能界面助手,專門為盲人和低視力用戶設(shè)計(jì)。它的最大特點(diǎn)是會(huì)在關(guān)鍵決策時(shí)刻主動(dòng)暫停,詢問(wèn)用戶偏好,而不像普通AI助手那樣自動(dòng)替用戶做選擇。比如購(gòu)買商品時(shí),如果有多個(gè)相同價(jià)格的選項(xiàng),Morae會(huì)展示不同口味、品牌等信息讓用戶自己選擇。
Q2:為什么需要讓AI助手暫停詢問(wèn)用戶,這不是降低了效率嗎?
A:研究發(fā)現(xiàn)95%的盲人用戶在使用傳統(tǒng)AI助手時(shí),完全不知道還有其他更好的選擇。雖然暫停會(huì)花費(fèi)更多時(shí)間(Morae平均129秒 vs 傳統(tǒng)助手55秒),但用戶能做出4.03個(gè)符合偏好的選擇,而傳統(tǒng)助手只有1.92個(gè)。這就像快餐和定制服務(wù)的區(qū)別,速度慢一點(diǎn)但結(jié)果更符合個(gè)人需求。
Q3:Morae如何判斷什么時(shí)候該暫停詢問(wèn)用戶?
A:Morae使用"動(dòng)態(tài)模糊選擇驗(yàn)證"機(jī)制,就像經(jīng)驗(yàn)豐富的服務(wù)員。它會(huì)分析三個(gè)因素:當(dāng)前操作是否涉及重要選擇、是否存在多個(gè)符合條件的選項(xiàng)、用戶命令是否足夠明確。在技術(shù)測(cè)試中,這種方法的準(zhǔn)確率達(dá)到59.7%,召回率69.8%,既避免了過(guò)多打擾,又不會(huì)錯(cuò)過(guò)重要的選擇時(shí)機(jī)。