時間:2017-08-22 來源:互聯網 瀏覽量:
微軟的語音識別係統已經達成與人類抄寫的錯誤率水平相仿
微軟昨天宣布,其會話式語音識別係統的錯誤率達5.1%,符合專業人員抄錄員的錯誤率。
微軟去年認為,其5.9%的錯誤率已經達到了人性化水平,但IBM研究人員要求係統達到5.1%,略低於5.5%的最低字錯誤率。
最近微軟的測試與去年的一樣,Microsoft的係統是針對“配電板”語料庫進行測試的,這個數據集包括美國口音的陌生人之間的大約2,400次雙麵電話對話。這個測試涉及到在討論一係列話題的人之間進行談話,從體育到政治,包括更加正式的對話
與去年的測試不同的,微軟沒有將其係統與另一個稱為CallHome的數據集進行測試,包括家庭成員之間的開放式和更隨意的對話。 CallHome的錯誤率都超過了人機和機器的兩台交換機測試。
盡管如此,微軟在調整其神經網絡聲學和語言模型後,確實在去年的“Switchboard”結果中削減了12%。
微軟技術研究員黃雪芹解釋說“我們引入了一個額外的CNN-BLSTM(卷積神經網絡結合雙向長期記憶)模型,用於改進聲學建模。另外,我們的方法來組合來自多個聲學模型的預測現在在幀/語音和單詞“
“此外,我們通過使用對話會話的整個曆史來加強識別器的語言模型,以預測接下來可能發生的事情,有效地允許模型適應對話的話題和本地語境。”
盡管有新的挑戰,微軟不得不承認機器難以識別不同的口音和口音風格,並且在嘈雜的條件下會表現不佳。
而Google今年早些時候宣布其係統實現了4.9%的字錯誤率,盡管目前還不清楚它使用了什麼測試。