時間:2017-08-21 來源:互聯網 瀏覽量:
1
去年,微軟的語音與對話研究小組宣布在Switchboard 對話語音識別任務上達到人類水平,實現裏程碑式的突破。
微軟技術Fellow黃學東在微軟官方博客上稱,這意味著,他們創造了一種技術,可以在對話中識別詞語,且與人類專業的速記員水平相當。
黃學東在博客上說:“在我們的轉錄係統達到5.9%的錯誤率之後,其他研究人員進行了自己的研究,采用了更多參與的多轉錄程序,將錯誤率降低至5.1%。今天,我很高興地宣布,我們的研究團隊通過我們的語音識別係統達到了5.1%的錯誤率,這是一個新的行業裏程碑,大大超過了去年實現的準確性。本周末發布的技術報告記錄了我們係統的細節。”
以下是微軟官方博客的介紹:
Switchboard 是一個電話通話錄音語料庫,這種語料庫用於語音識別係統的研究已經超過20年了。任務包括轉寫陌生人之間的話題討論,比如關於體育或政治話題的對話。 我們對基於神經網絡的語音和語言模型做了一係列改進,和去年的精確度相比,錯誤率大大降低。
我們又為改進語音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我們現在在 frame/senone 和詞語層麵都使用了結合多個聲學模型的預測的方法。 此外,我們通過使用整個對話過程來加強識別器的語言模型,以預測接下來可能發生的事情,使得模型有效地適應了對話的話題和語境。
我們的團隊使用最可擴展的深度學習軟件Microsoft Cognitive Toolkit 2.1(CNTK),用於探索模型架構和優化我們的模型的超參數。此外,微軟對雲計算基礎設施(特別是Azure GPU)的投資,也有助於提高我們訓練模型並測試新想法的有效性和速度。
達到人類水平精度,能夠與人類對話,是過去25年來微軟的研究目標。微軟對長期研究的投入,已經在諸如Cortana,演示文稿轉換器(Presentation Translator)和Microsoft認知服務等產品和服務上見到了成效。我們的研究團隊非常高興地看到,每天都有數百萬在使用的我們工作成果。
工業界和學術界已經有許多研究團隊在語音識別方麵做得很好,我們的工作從研究社區整體的進步中獲益良多。雖然在 Switchboard 語音識別任務上實現5.1%的詞彙錯誤率是一項重大的成果,但語言研究領域仍然麵臨許多挑戰,例如在嘈雜環境下較遠的麥克風的語音識別,識別方言,或訓練數據有限的特定說話風格或較少人使用的語言的語音識別,這些都仍未達到人類水平。此外,我們在教計算機不僅是轉錄口語,而且要了解話語的意義和意圖方麵仍有很多工作要做。從識別語音到理解話語,是語音技術的下一個主要挑戰。
微軟語音識別最新技術報告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf
編譯來源:
https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/