通遼2025-09-10 05:17:24709

阿里端出最強(qiáng)語(yǔ)音模型！英文rap精準(zhǔn)轉(zhuǎn)文字，準(zhǔn)確率干翻全球

▲頭圖由AI生成

智東西作者程茜編輯心緣

智東西9月9日?qǐng)?bào)道，昨天，阿里發(fā)布最新語(yǔ)音識(shí)別模型Qwen3-ASR-Flash，該模型基于Qwen3基座模型訓(xùn)練，支持11種語(yǔ)言和多種口音。用戶(hù)可以通過(guò)ModelScope、HuggingFace和阿里云百煉API Qwen3-ASR-Flash免費(fèi)體驗(yàn)。

在ASR（自動(dòng)語(yǔ)音識(shí)別）的多項(xiàng)基準(zhǔn)測(cè)試中，Qwen3-ASR-Flash在方言、多語(yǔ)種、關(guān)鍵信息識(shí)別、歌詞等方面的識(shí)別錯(cuò)誤率明顯低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴語(yǔ)音實(shí)驗(yàn)室Paraformer-v1、字節(jié)豆包Doubao-ASR。

具體來(lái)看，該模型支持中文、英語(yǔ)、法語(yǔ)、德語(yǔ)等11個(gè)語(yǔ)種，識(shí)別過(guò)程中能自動(dòng)分辨語(yǔ)音語(yǔ)種、自動(dòng)過(guò)濾靜音和背景噪聲等非語(yǔ)音片段，其是基于海量多模態(tài)數(shù)據(jù)以及千萬(wàn)小時(shí)規(guī)模的ASR數(shù)據(jù)構(gòu)建的語(yǔ)音識(shí)別服務(wù)。

此外，用戶(hù)還可定制ASR結(jié)果，通過(guò)在上傳音頻時(shí)添加關(guān)鍵信息術(shù)語(yǔ)、音頻發(fā)生背景等上下文信息，就能使識(shí)別結(jié)果匹配這些已有信息。

下面是官方放出的電競(jìng)比賽解說(shuō)音頻示例。研究人員為這一場(chǎng)景配置了背景信息，包括關(guān)鍵詞列表、這場(chǎng)游戲的背景等。因此識(shí)別結(jié)果中，即使電競(jìng)解說(shuō)人員的語(yǔ)速非?？煲矝](méi)有影響識(shí)別游戲?qū)I(yè)術(shù)語(yǔ)的效果。

https://oss.zhidx.com/fec737df52316dd65dba06796cdb1eb9/68befd80/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav

ModelScope地址：

https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

Hugging Face地址：

https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

阿里云百煉API調(diào)用地址：

https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

一、能識(shí)別游戲解說(shuō)、英文說(shuō)唱，連續(xù)多種噪音抗干擾拉滿

官方放出了5個(gè)演示示例，包含多種類(lèi)型噪聲、多語(yǔ)種快速切換、方言、專(zhuān)業(yè)名詞的音頻識(shí)別難題。

第一個(gè)是夾雜手機(jī)鈴聲、車(chē)鈴聲、音樂(lè)聲、水聲、雷聲等多種類(lèi)型的連續(xù)噪音，其中還會(huì)有不同人物之間切換對(duì)話，Qwen3-ASR-Flash在多人同時(shí)說(shuō)話或者說(shuō)話間隔非常短的情況下也對(duì)語(yǔ)音進(jìn)行了準(zhǔn)確識(shí)別，沒(méi)有受到噪聲干擾。

https://oss.zhidx.com/383cc163e20957eddc21e7e86a4b3f07/68befd80/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav

第二個(gè)是英文說(shuō)唱。英文說(shuō)唱的特點(diǎn)是語(yǔ)速快、歌詞中單詞連讀情況多，識(shí)別結(jié)果中很多歌詞中的單詞連讀、長(zhǎng)難句識(shí)別準(zhǔn)確，且沒(méi)有受到背景音樂(lè)的干擾。

https://oss.zhidx.com/b2535c852c6391fdc4b1c8e71e963b26/68befd80/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav

第三個(gè)是方言的識(shí)別。這一場(chǎng)景中，音頻中主人公正在開(kāi)車(chē)，有主人公的方言和智能語(yǔ)音客服的普通話穿插出現(xiàn)，音頻中智能語(yǔ)音客服將“糾正”錯(cuò)誤識(shí)別成了“96”，Qwen3-ASR-Flash進(jìn)行了準(zhǔn)確識(shí)別。

https://oss.zhidx.com/16a9a5026b271ec29d2b519f5384b210/68befd80/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav

第四個(gè)是多語(yǔ)種句子切換，7秒的音頻里有英語(yǔ)、日語(yǔ)等5種語(yǔ)言，識(shí)別結(jié)果都進(jìn)行了一一呈現(xiàn)。

https://oss.zhidx.com/05e13dcd6a7ff02eddf2fc36c488c698/68befd80/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav

最后是化學(xué)課程的一段音頻。識(shí)別結(jié)果中酯基、酸、醛、氨等化學(xué)名詞，以及音頻中人物的語(yǔ)氣詞識(shí)別并未出錯(cuò)。

https://oss.zhidx.com/5f39d32577be13371754b8f8187ad8d2/68befd80/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav

二、歌詞識(shí)別錯(cuò)誤率低于8%，可定制語(yǔ)音識(shí)別結(jié)果

性能表現(xiàn)，Qwen3-ASR-Flash的自動(dòng)語(yǔ)音識(shí)別錯(cuò)誤率，在中文、英文、多語(yǔ)言自動(dòng)語(yǔ)音識(shí)別、歌詞、關(guān)鍵信息識(shí)別的錯(cuò)誤率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

在歌詞識(shí)別中，Qwen3-ASR-Flash支持清唱和帶畢竟音樂(lè)的整首歌識(shí)別，研究人員實(shí)測(cè)識(shí)別錯(cuò)誤率低于8%。

該模型支持普通話以及四川話、閩南語(yǔ)、吳語(yǔ)、粵語(yǔ)等方言，英式、美式及多地區(qū)口音的英語(yǔ)，其他語(yǔ)言如法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)和阿拉伯語(yǔ)。

如果想要獲得定制化的ASR結(jié)果，用戶(hù)可提供任意格式的背景文本來(lái)獲得傾向性ASR結(jié)果，且用戶(hù)無(wú)需對(duì)上下文信息進(jìn)行預(yù)處理。

其支持的格式包括但不限于以下一種，簡(jiǎn)單的關(guān)鍵詞或熱詞列表、任意長(zhǎng)度和來(lái)源的完整段落或整篇文檔、以任意格式混合的關(guān)鍵詞列表與全文段落、無(wú)關(guān)甚至無(wú)意義的文本。研究人員提到，模型對(duì)無(wú)關(guān)上下文的負(fù)面影響具有高度魯棒性。

基于此，Qwen3-ASR-Flash可以利用該上下文識(shí)別并匹配命名實(shí)體和其他關(guān)鍵術(shù)語(yǔ)，輸出定制化的識(shí)別結(jié)果。

結(jié)語(yǔ)：后續(xù)將迭代通用語(yǔ)音識(shí)別精度

一直以來(lái)，復(fù)雜聲學(xué)環(huán)境、多樣化語(yǔ)音特征、專(zhuān)業(yè)術(shù)語(yǔ)等都是語(yǔ)音識(shí)別的最大難點(diǎn)。此次為了保證用戶(hù)對(duì)輸出結(jié)果的可控，阿里研究人員上線了背景文本上傳功能，使得這一生成結(jié)果能更加符合用戶(hù)的預(yù)期。

下一步，研究人員將提升Qwen3-ASR-Flash的通用識(shí)別精度，進(jìn)一步降低普通用戶(hù)的使用門(mén)檻。

通遼

国产草莓视频在线观看_欧美同性videos免费播放_免费一级毛片激情永久_国产特级全黄一线毛片_精品少妇影视免费_2020无码专区人妻日韩_最新国产网站_刘亦菲激情旡码大片_中文无码视频互动交流_欧美日韩激情aⅤ综合在线