9月15日報道,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創新的Context模塊,針對性優化了“幻覺”、“串語種”等關鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。
FunAudio-ASR使用了數千萬小時的音頻數據,融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。
通義實驗室打造了5大類測試集,重點關注語音識別在遠場、嘈雜背景等挑戰性場景下的表現,并結合開源測試集評估了模型的性能。FunAudio-ASR實現了超越Seed-ASR、KimiAudio-8B等業內知名模型的表現。

同時,FunAudio-ASR在實際落地方面也進行了全面優化,支持低延遲流式識別、跨中英文自然切換以及用戶可自定義的熱詞識別,能夠覆蓋視頻會議、實時字幕、智能終端等多樣化應用場景。
FunAudio-ASR提供兩個版本,滿血版由0.7B參數量的編碼器和7B參數量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數量的編碼器和0.6B參數量的大語言模型,平衡效率與精度。目前,FunAudio-ASR已在釘釘的“AI聽記”、視頻會議、DingTalk A1硬件等多個場景中應用。
FunAudio-ASR已上線阿里云百煉平臺,API定價為0.00022元/秒,轉錄一段一小時的音頻大約需要8毛錢。這款模型的技術報告已經發布,開發者也可在魔搭社區體驗其效果