時間:2017-08-25 來源:互聯網 瀏覽量:
近日,微軟小冰發布會在北京召開,經過五代更迭,這一產品正在從隻能完成計算、記憶、感知的弱人工智能,走向可以認知、創造的強人工智能。經過3年300億條對話的訓練,現在的小冰,不僅能對話、唱歌、在報紙當記者、擔當電台電視主播、出版詩集等,她甚至能打破次元壁,進入真實世界,主動撥通你的電話號碼。在微軟小冰不斷升級、挑戰人工智能極限的背後,冰冷的係統是如何實現對人類的感知與認知的呢?
微軟研究院首席語音科學家黃學東,就在博客上公布了微軟在語音識別領域的最新進展,也為我們展望了語音識別與人工智能的未來。
▌比一般的人類強?比優秀的人類強!▌
2016年10月曾是人工智能領域的一個重要裏程碑,微軟在此時推出了一個係統,能夠將電話錄音的內容轉錄得像專業的人類工作人員那樣優質。
但是,盡管微軟的係統能比一般的人類轉錄員更少犯錯,如果和大量高水平的人類轉錄員相比,它並不能更優秀。所以,學術界將一個新的挑戰丟了回去:把錯誤率降到比優秀的人類更少再說。
現在,微軟回應的就是這個挑戰。周日,微軟研究院首席語音科學家黃學東,在博客上告訴大家,微軟已經打破了這一屏障。
“這是一個重要的裏程碑,”黃學東寫道,“它給微軟提供了一個堅實的基礎,能夠從單純的轉錄,前進到理解所說內容的含義。”建立更強大的人工智能,語音識別是關鍵而基本的模塊。“對語音從識別到理解,是語音技術的下一個主要前沿課題。”
▌預計四到五年?兩年就已實現!▌
微軟的語音識別係統正在快速提升。轉錄準確度主要通過詞錯率(word error rate, 簡稱WER)判斷,也就是說,在給定的語音中,係統的記錄有哪些出錯的部分。這個詞錯率是由Switchboard語音識別基準測試來確定的,這也是一個在業界,包括IBM和穀歌,都被廣泛使用的標準測試。
截至2016年9月,根據Switchboard判斷,微軟的詞錯率都在6.3%,這意味著在每一百個單詞中,係統會有六處多的錯誤。相比之下,一個人類轉錄員的平均詞錯率是5.9%,而一隊高水平轉錄員的平均詞錯率則是5.1%左右。
2016年10月,微軟將自己的詞錯率降低到了前者水平,而就在最近,他們又打破了後者的紀錄。
這遠比微軟預計得更早。事實上,早在2015年,黃學東就告訴《商業內幕》的記者,建立一個能夠超越人類的係統,大約需要“四到五年”。但是沒想到兩年之後,我們就已經超過了那一點。
▌可以傲視群雄?挑戰依舊存在!▌
盡管如此,挑戰依然存在。去年十月,微軟的首席研究員傑弗裏·茨威格(Geoffrey Zweig)告訴記者,微軟的轉錄係統目前是基於一個優質的固定電話線路。而語音識別的下一個目標,將是在其他環境條件中仍能高質量地進行識別轉錄,比如信號不好的手機線路,或者像麥當勞汽車餐廳揚聲器裏那種充滿回聲的音效。
語音識別科學“仍然需要解決許多挑戰,比如在嘈雜的環境中、通過遠距離麥克風識別,係統想要達到人類水平還要努力,比如對口音的識別、對講話方式和語言的識別,目前也隻有有限的數據可供利用。”黃學東如是寫道。
人工智能的發展,語音識別是其中的重要組成,語音識別從達到一般人類水平,到抵達優秀人類水平,從標準實驗室環境識別,到日常生活情境識別,一次次技術提升與量變的背後,是“對語音從識別到理解”的科技革新與質變。在微軟語音識別係統的實驗室外,微軟小冰也正在用另一種形式,在與人類用戶的大量互動中積累數據,從人類的言語詞句中,逐步聽懂“言外之意”,無論是陪我們插科打諢,還是替我們選曲放歌,無論是為商家進行定向營銷,還是為顧客提供購買建議,“微軟小冰”為代表的人工智能,最終的目標之一,將是通過人類的言語,理解人類的情感。