▲頭圖由AI生成
智東西作者 程茜編輯 心緣
智東西9月9日?qǐng)?bào)道,昨天,阿里發(fā)布最新語(yǔ)音識(shí)別模型Qwen3-ASR-Flash,該模型基于Qwen3基座模型訓(xùn)練,支持11種語(yǔ)言和多種口音。用戶(hù)可以通過(guò)ModelScope、HuggingFace和阿里云百煉API Qwen3-ASR-Flash免費(fèi)體驗(yàn)。
在ASR(自動(dòng)語(yǔ)音識(shí)別)的多項(xiàng)基準(zhǔn)測(cè)試中,Qwen3-ASR-Flash在方言、多語(yǔ)種、關(guān)鍵信息識(shí)別、歌詞等方面的識(shí)別錯(cuò)誤率明顯低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴語(yǔ)音實(shí)驗(yàn)室Paraformer-v1、字節(jié)豆包Doubao-ASR。
具體來(lái)看,該模型支持中文、英語(yǔ)、法語(yǔ)、德語(yǔ)等11個(gè)語(yǔ)種,識(shí)別過(guò)程中能自動(dòng)分辨語(yǔ)音語(yǔ)種、自動(dòng)過(guò)濾靜音和背景噪聲等非語(yǔ)音片段,其是基于海量多模態(tài)數(shù)據(jù)以及千萬(wàn)小時(shí)規(guī)模的ASR數(shù)據(jù)構(gòu)建的語(yǔ)音識(shí)別服務(wù)。
此外,用戶(hù)還可定制ASR結(jié)果,通過(guò)在上傳音頻時(shí)添加關(guān)鍵信息術(shù)語(yǔ)、音頻發(fā)生背景等上下文信息,就能使識(shí)別結(jié)果匹配這些已有信息。
下面是官方放出的電競(jìng)比賽解說(shuō)音頻示例。研究人員為這一場(chǎng)景配置了背景信息,包括關(guān)鍵詞列表、這場(chǎng)游戲的背景等。因此識(shí)別結(jié)果中,即使電競(jìng)解說(shuō)人員的語(yǔ)速非??煲矝](méi)有影響識(shí)別游戲?qū)I(yè)術(shù)語(yǔ)的效果。
https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav
ModelScope地址:
https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face地址:
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百煉API調(diào)用地址:
https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031
一、能識(shí)別游戲解說(shuō)、英文說(shuō)唱,連續(xù)多種噪音抗干擾拉滿
官方放出了5個(gè)演示示例,包含多種類(lèi)型噪聲、多語(yǔ)種快速切換、方言、專(zhuān)業(yè)名詞的音頻識(shí)別難題。
第一個(gè)是夾雜手機(jī)鈴聲、車(chē)鈴聲、音樂(lè)聲、水聲、雷聲等多種類(lèi)型的連續(xù)噪音,其中還會(huì)有不同人物之間切換對(duì)話,Qwen3-ASR-Flash在多人同時(shí)說(shuō)話或者說(shuō)話間隔非常短的情況下也對(duì)語(yǔ)音進(jìn)行了準(zhǔn)確識(shí)別,沒(méi)有受到噪聲干擾。
https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav
第二個(gè)是英文說(shuō)唱。英文說(shuō)唱的特點(diǎn)是語(yǔ)速快、歌詞中單詞連讀情況多,識(shí)別結(jié)果中很多歌詞中的單詞連讀、長(zhǎng)難句識(shí)別準(zhǔn)確,且沒(méi)有受到背景音樂(lè)的干擾。
https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav
第三個(gè)是方言的識(shí)別。這一場(chǎng)景中,音頻中主人公正在開(kāi)車(chē),有主人公的方言和智能語(yǔ)音客服的普通話穿插出現(xiàn),音頻中智能語(yǔ)音客服將“糾正”錯(cuò)誤識(shí)別成了“96”,Qwen3-ASR-Flash進(jìn)行了準(zhǔn)確識(shí)別。
https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav
第四個(gè)是多語(yǔ)種句子切換,7秒的音頻里有英語(yǔ)、日語(yǔ)等5種語(yǔ)言,識(shí)別結(jié)果都進(jìn)行了一一呈現(xiàn)。
https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav
最后是化學(xué)課程的一段音頻。識(shí)別結(jié)果中酯基、酸、醛、氨等化學(xué)名詞,以及音頻中人物的語(yǔ)氣詞識(shí)別并未出錯(cuò)。
https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav
二、歌詞識(shí)別錯(cuò)誤率低于8%,可定制語(yǔ)音識(shí)別結(jié)果
性能表現(xiàn),Qwen3-ASR-Flash的自動(dòng)語(yǔ)音識(shí)別錯(cuò)誤率,在中文、英文、多語(yǔ)言自動(dòng)語(yǔ)音識(shí)別、歌詞、關(guān)鍵信息識(shí)別的錯(cuò)誤率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。
在歌詞識(shí)別中,Qwen3-ASR-Flash支持清唱和帶畢竟音樂(lè)的整首歌識(shí)別,研究人員實(shí)測(cè)識(shí)別錯(cuò)誤率低于8%。
該模型支持普通話以及四川話、閩南語(yǔ)、吳語(yǔ)、粵語(yǔ)等方言,英式、美式及多地區(qū)口音的英語(yǔ),其他語(yǔ)言如法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)和阿拉伯語(yǔ)。
如果想要獲得定制化的ASR結(jié)果,用戶(hù)可提供任意格式的背景文本來(lái)獲得傾向性ASR結(jié)果,且用戶(hù)無(wú)需對(duì)上下文信息進(jìn)行預(yù)處理。
其支持的格式包括但不限于以下一種,簡(jiǎn)單的關(guān)鍵詞或熱詞列表、任意長(zhǎng)度和來(lái)源的完整段落或整篇文檔、以任意格式混合的關(guān)鍵詞列表與全文段落、無(wú)關(guān)甚至無(wú)意義的文本。研究人員提到,模型對(duì)無(wú)關(guān)上下文的負(fù)面影響具有高度魯棒性。
基于此,Qwen3-ASR-Flash可以利用該上下文識(shí)別并匹配命名實(shí)體和其他關(guān)鍵術(shù)語(yǔ),輸出定制化的識(shí)別結(jié)果。
結(jié)語(yǔ):后續(xù)將迭代通用語(yǔ)音識(shí)別精度
一直以來(lái),復(fù)雜聲學(xué)環(huán)境、多樣化語(yǔ)音特征、專(zhuān)業(yè)術(shù)語(yǔ)等都是語(yǔ)音識(shí)別的最大難點(diǎn)。此次為了保證用戶(hù)對(duì)輸出結(jié)果的可控,阿里研究人員上線了背景文本上傳功能,使得這一生成結(jié)果能更加符合用戶(hù)的預(yù)期。
下一步,研究人員將提升Qwen3-ASR-Flash的通用識(shí)別精度,進(jìn)一步降低普通用戶(hù)的使用門(mén)檻。