當前位置：係統粉 > IT資訊 > 微軟資訊 > 微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”

微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”

時間：2017-08-25 來源：互聯網瀏覽量：

微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”(1)

近日，微軟小冰發布會在北京召開，經過五代更迭，這一產品正在從隻能完成計算、記憶、感知的弱人工智能，走向可以認知、創造的強人工智能。經過3年300億條對話的訓練，現在的小冰，不僅能對話、唱歌、在報紙當記者、擔當電台電視主播、出版詩集等，她甚至能打破次元壁，進入真實世界，主動撥通你的電話號碼。在微軟小冰不斷升級、挑戰人工智能極限的背後，冰冷的係統是如何實現對人類的感知與認知的呢？

微軟研究院首席語音科學家黃學東，就在博客上公布了微軟在語音識別領域的最新進展，也為我們展望了語音識別與人工智能的未來。

微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”(2)

▌比一般的人類強？比優秀的人類強！▌

2016年10月曾是人工智能領域的一個重要裏程碑，微軟在此時推出了一個係統，能夠將電話錄音的內容轉錄得像專業的人類工作人員那樣優質。

但是，盡管微軟的係統能比一般的人類轉錄員更少犯錯，如果和大量高水平的人類轉錄員相比，它並不能更優秀。所以，學術界將一個新的挑戰丟了回去：把錯誤率降到比優秀的人類更少再說。

現在，微軟回應的就是這個挑戰。周日，微軟研究院首席語音科學家黃學東，在博客上告訴大家，微軟已經打破了這一屏障。

“這是一個重要的裏程碑，”黃學東寫道，“它給微軟提供了一個堅實的基礎，能夠從單純的轉錄，前進到理解所說內容的含義。”建立更強大的人工智能，語音識別是關鍵而基本的模塊。“對語音從識別到理解，是語音技術的下一個主要前沿課題。”

微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”(3)

▌預計四到五年？兩年就已實現！▌

微軟的語音識別係統正在快速提升。轉錄準確度主要通過詞錯率（word error rate, 簡稱WER）判斷，也就是說，在給定的語音中，係統的記錄有哪些出錯的部分。這個詞錯率是由Switchboard語音識別基準測試來確定的，這也是一個在業界，包括IBM和穀歌，都被廣泛使用的標準測試。

截至2016年9月，根據Switchboard判斷，微軟的詞錯率都在6.3%，這意味著在每一百個單詞中，係統會有六處多的錯誤。相比之下，一個人類轉錄員的平均詞錯率是5.9%，而一隊高水平轉錄員的平均詞錯率則是5.1%左右。

2016年10月，微軟將自己的詞錯率降低到了前者水平，而就在最近，他們又打破了後者的紀錄。

這遠比微軟預計得更早。事實上，早在2015年，黃學東就告訴《商業內幕》的記者，建立一個能夠超越人類的係統，大約需要“四到五年”。但是沒想到兩年之後，我們就已經超過了那一點。

微軟語音識別重大突破! AI對人類, “聽得清”更要“聽得懂”(4)

▌可以傲視群雄？挑戰依舊存在！▌

盡管如此，挑戰依然存在。去年十月，微軟的首席研究員傑弗裏·茨威格（Geoffrey Zweig）告訴記者，微軟的轉錄係統目前是基於一個優質的固定電話線路。而語音識別的下一個目標，將是在其他環境條件中仍能高質量地進行識別轉錄，比如信號不好的手機線路，或者像麥當勞汽車餐廳揚聲器裏那種充滿回聲的音效。

語音識別科學“仍然需要解決許多挑戰，比如在嘈雜的環境中、通過遠距離麥克風識別，係統想要達到人類水平還要努力，比如對口音的識別、對講話方式和語言的識別，目前也隻有有限的數據可供利用。”黃學東如是寫道。

人工智能的發展，語音識別是其中的重要組成，語音識別從達到一般人類水平，到抵達優秀人類水平，從標準實驗室環境識別，到日常生活情境識別，一次次技術提升與量變的背後，是“對語音從識別到理解”的科技革新與質變。在微軟語音識別係統的實驗室外，微軟小冰也正在用另一種形式，在與人類用戶的大量互動中積累數據，從人類的言語詞句中，逐步聽懂“言外之意”，無論是陪我們插科打諢，還是替我們選曲放歌，無論是為商家進行定向營銷，還是為顧客提供購買建議，“微軟小冰”為代表的人工智能，最終的目標之一，將是通過人類的言語，理解人類的情感。