時間:2017-10-19 來源:互聯網 瀏覽量:
1982 年上映的電影《銀翼殺手》,描述的是一個生物技術高度發達的未來世界。片子裏仿生人、記憶移植已經是常態。
現在 35 年過去,它的續集已經在許多國家上映,很顯然我們現實中的生物技術遠沒有構想的發達。
但有一個技術現實甩開了科幻。電影中富可敵國的公司 Tyrell 集團的老板,他的電子智能助理,卻隻能識別非常慢的語音命令,和用非常幹癟的語調告訴他門口有客人。
現實的發展和藝術的想象完全走向了不同的方向。
上個月,微軟發布了一篇研究文章,宣布在人工智能語音識別領域有了一項突破:在利用標準數據集 Switchboard 的測試中,微軟的人工智能實現了 5.1% 的錯誤率,這個數據是目前人工智能領域最高的,也超過了人類的最小錯誤率 5.9%。
這篇技術文章的作者是在微軟負責語音、語言人工智能研究的計算機科學家黃學東博士。黃學東畢業於湖南大學,在愛丁堡大學獲得博士學位,1993 年加入微軟,研究人工智能超過 24 年。日前黃學東接受了《好奇心日報》的專訪,聊了聊一些關於語音識別和人工智能的話題。
就聽“懂”人話來說,機器已經做到了極限
語音識別這個場景每一個消費者應該都已經很熟悉了:和 Siri 的對話,用訊飛輸入法聽寫等等都是語音識別。雖然程序能聽懂人說話是很久遠以前的事情,比如Windows XP 上就內置有聽寫功能,但那個時候的聽寫功能必須用一個話筒非常嚴肅、緩慢的讀出字詞,計算機才能識別你說的話。
微軟取得的突破就是這個領域:在利用標準數據集 Switchboard 的測試中,微軟的人工智能實現了 5.1% 的錯誤率,這個數據是目前人工智能領域最高的,也超過了人類的最小錯誤率 5.9%。
公共數據集 Switchboard 是語音識別人工智能領域公認的標準數據集,它包含了 2000 多個小時的電話錄音,這些錄音都是收集來的公開資料,內容五花八門,都是通過電話錄音係統收集來的日常“聊天”內容,沒有針對計算機進行優化。
AI 能不能聽懂 Switchboard 裏的錄音資料,然後轉換成文字,是業界對語音識別 AI 能力的考核標準。
像真人一樣,計算機能聽懂人隨意講出的話是這幾年的事情。黃學東說,微軟 AI 的錯誤率比人類更低,指的是使用多個人工速記員團隊,除了反複聆聽之外,團隊之間還可以進行互相比對和糾錯,這樣的結果下,人類能達到的錯誤率最低就是 5.1%。
但是要注意的是,說 AI 超越人類的語音識別能力,隻是說能聽懂說的每一個字並將他們變成文字,與計算機能不能明白這些文字的全部意義是不同的兩種能力。後麵這種能力是小冰、Siri 等智能語音助手的核心能力。
語音識別的最大瓶頸,是你的手機太慢了
除了聽寫,黃學東也通過向《好奇心日報》展示了 PowerPoint 中的演講插件,展示了微軟人工智能團隊的另一個成果:機器翻譯 PPT。
PPT 這個插件在 2016 年微軟年度 Build 開發者大會上就有展示,在啟動這個插件之後,PowerPoint 在播放幻燈片的同時就可以把演講者說的話幾乎實時的變成字幕顯示在屏幕上,同時可以翻譯成 60 種語言。
現在所有的 Windows 版本 Office 的使用者都可以安裝這個插件,插件在工作的時候不是簡單的語音識別和翻譯,它會對幻燈片的內容進行識別的學習,以便在理解演講者的話時,準確識別幻燈片中出現的特殊詞彙。
黃學東說自己在海外讀博士的時候,遇到的最大問題就是語言。“蘇格蘭口音的英語完全聽不懂”,他說。在看 BBC 的時候,他發現 BBC 為觀眾提供了實時的英文字幕,看英文比聽英文要流暢多了,他那時候想,如果有個自動的字幕機多好。
這是 PPT 翻譯插件的靈感來源。
但他承認說這個插件目前的識別準確率比 5.1% 的實驗室錯誤率高很多,主要原因是這個插件依靠的是實驗室服務器提供的無限計算性能,當受限於個人電腦的時候,它就低多了。
其它人工智能相關服務也都是如此。幾乎所有的手機人工智能功能都必須依靠雲計算來完成,比如視頻編輯應用 Prisma。
Prisma 可以把照片和視頻用人工智能加上風格化的濾鏡,但必須依靠網絡上傳和下載,編輯視頻所需的時間比普通視頻應用長得多。可以想象,如果手機的性能連語音識別都沒法完成,你和 Siri 你每說一句話都需要等待上傳識別再下載,這樣的體驗就太糟糕了。
在實際測試裏能感覺到,隻有放慢速度說話的時候,微軟的插件才能提供比較可靠的字幕。
接下來的改進主要將是英特爾、蘋果、高通等芯片設計公司的工作,它們決定著你的電腦、手機用什麼處理器。目前蘋果已經為新一代 iPhone 定製了為圖像識別、語音識別等人工智能相關計算優化的新處理器。
用比爾·蓋茨的一段話說,“一般人對一年內的工作計劃都會高估,但對十年的工作往往會低估。”
題圖/微軟亞洲研發集團
喜歡這篇文章?去 App 商店搜 好奇心日報 ,每天看點不一樣的。