點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
場景描述
隨著AI能力進步,越來越多的傳統(tǒng)硬件廠商以及基于小模型AI能力構(gòu)建的智能硬件廠商,迫切得需要升級到大模型以提升交互體驗。然而,對于眾多企業(yè)來說要想保障低延時交互的同時,又要確保模型的效果并且引入外部服務(wù)豐富AI能力,還要兼顧成本就變得尤為挑戰(zhàn)。
眾所周知,想要低時延則模型尺寸不能過大,而模型尺寸偏小又會帶來效果問題;想要引入更多的外部服務(wù)來豐富AI能力,則工程鏈路必然更復(fù)雜,工程鏈路的冗長又會帶來高時延問題。
面對這些挑戰(zhàn),眾多硬件廠商急需一種兼顧成本、時延、功能、效果并且易用的解決方案。
解決方案
阿里通義實驗室,深刻認(rèn)識到消費電子行業(yè)升級AI能力的緊迫性和重要性,為了解決上述挑戰(zhàn),決定建設(shè)多模態(tài)交互方案。
該方案借助通義實驗室的應(yīng)用算法能力,對AI硬件的常見場景進行了分析,專項定制了數(shù)個小尺寸意圖識別模型,在確保效果的同時最大程度降低時延。另外依托于阿里云百煉平臺的生態(tài),使得用戶可以靈活自主得添加各類接口、MCP、智能體,極大程度得擴展了應(yīng)用的能力邊界。而且在阿里云自研算力的加持下,保障了性能和穩(wěn)定的前提下讓成本可控。使其最終成為硬件廠商用得起、用得好的解決方案。
成效
面向消費電子產(chǎn)品,提供結(jié)合了意圖識別、安全審核、長期記憶、聯(lián)網(wǎng)搜索、Function call與Agent靈活插拔的語音、視覺多模態(tài)實時交互的一站式解決方案:
1. 低延時,語音對話最低不足1s,視頻流對話最低1.5s2. 豐富的內(nèi)置技能與Agent(互聯(lián)網(wǎng)搜索、設(shè)備控制、天氣、翻譯、新聞)3. 從上下文到備忘錄到長期記憶的多級記憶,記憶召回F1值90%以上4. 意圖識別模型準(zhǔn)確率95%的前提下時延低于200ms
阿里云為聽力熊、希沃、深勵科技等廠商提供的多模態(tài)交互解決方案使得其多款產(chǎn)品的AI體驗大幅度提升,無論是情感陪伴、學(xué)習(xí)教育、語音控制、視覺理解都贏得了最終用戶的好評和贊譽,用戶粘性大幅提升,產(chǎn)品使用時長和交互頻次分別提升20%和70%。