時間:2019-06-13 來源:互聯網 瀏覽量:
HNUer的大牛學長有哪些?
下麵這位,你們可曾聽說?
他是微軟首位華人技術院士、微軟首席語音科學家
——黃學東
湖南大學裏“最小”的大學生之一
1978年,15歲的黃學東進入湖南大學師資班(後來的電子工程係),成為當時校園裏年齡最小的學生之一,後來獲得湖南大學學士學位。
曾經,那位校園裏年齡最小的學生之一,現在已經成了湖南大學信息科學與工程學院名譽教授,微軟首位華人“全球技術院士”、微軟首席語音科學家。
“外界看到更多的是我在微軟的成就,但是我不會忘記長沙以及母校湖南大學的功勞,我曾在這裏打下追求科學和工程的堅實基礎。湖南是我夢開始的地方。”黃學東說。“嶽麓書院有一千餘年曆史,同樣在嶽麓書院這個地址,湖南大學一直保持了教育的連續性。我每天從宿舍經過嶽麓書院,都要看嶽麓書院門前的對聯,它為自信心,有情懷的追求打下了基礎。因為很多事情,以及你在追求事業的過程中一定要有耐力,要有內力,這是湖南大學給我最好的訓練。”
黃學東在湖南大學開展講座,講解了語音識別領域的相關專業問題
語言困難促成“語音識別”之夢
從湖南大學畢業後,黃學東進入清華大學和英國愛丁堡大學。
初到蘇格蘭愛丁堡大學攻讀博士課程,自動語音識別(ASR)就深深的吸引住了黃學東。回憶起用本科水平的美式英語試圖聽懂帶有蘇格蘭口音的教授講話時的難度,黃學東說:“剛離開中國,當時的我隻希望每一位講師和教授在教室裏授課時,都能夠帶有字幕。”
正因為學習中的這點語言困難成就了他日後在人工智能語音識別領域的豐收。
1993年,黃學東加入微軟,開始了他的“人工智能語音識別夢”。黃學東認為人工智能就像孟子講,“勞心者治人,勞力者治於人。”有腦子、能推理,能理解周圍的環境、能了解人心,有 EQ、有 IQ,這才是最強大的。
語音識別是把音頻轉換成文字的過程,這個過程相當複雜,體現了人工智能今天最優秀的技術能達到的水平。
圖象識別也類似,都是從 A 到 B 轉換的學習。理解語言、語義、深刻地領會意思,就不再是簡單的 A 到 B 的映射過程。黃學東解釋道:“因為語意沒有音義,我講了一句話具體是什麼意思,你要把它翻譯成文字定義是非常清楚的,但意義每個人都有不同的理解。這才是人工智能最核心的關鍵。”
微軟首位華人技術院士
1993年,黃學東作為高級研究員加入了微軟研究所並負責組建Microsoft's 語音識別技術研究團隊。現在,黃學東領導微軟在美國、德國、埃及、以色列的全球團隊,負責研發微軟企業人工智能客服對話解決方案等最新人工智能產品和技術。
在微軟這座AI領域的“黃埔軍校”裏,微軟全球技術院士代表著技術人員的最高榮譽,到現在,全球也僅有20多人獲得這項殊榮,其中就包括黃學東,微軟唯一的華人技術院士。
很少有人知道,微軟全球技術院士(Technical Fellow) 代表著微軟技術人員的最高榮譽,目前為止,全球僅有約二十位人獲得,其中包括圖靈獎得主 Butler W Lampson、Charles P. Thacker等。黃學東是首位在微軟通過技術路線走到最高層的華人。
黃學東及其技術團隊
不到百分之一的進步
2016年10月18日,由黃學東帶領的微軟語音團隊在產業標準 Switchboard 語音識別基準測試中,實現了對話語音識別詞錯率(word error rate, 簡稱WER)低至5.9%的突破,首次達成與專業速記員持平而優於絕大多數人的表現。“這是人工智能領域突破性進展之一,意味著有史以來第一次有計算機能像人類一樣,識別對話中的每一個單詞。”黃學東說。
2017年9月,黃學東再次帶領團隊突破技術限製,把5.9%詞錯率降至5.1%。創造了當時該領域內錯誤率最低紀錄。
“可能表麵上這個進展不大,但是在‘最後一英裏’上,每 0.1 個百分點的進步都很艱難,必須保證係統沒有任何bug。何況從相對錯誤率降幅角度, 5.9 到 5.1 是一個超過 10% 的相對進步。”
從 5.9% 到 5.1% 是如何實現的呢?調整結構亦或調整參數?黃學東說,為了這不到百分之一的進步,團隊做了一千多個實驗,評估了上百個不同的模型,幾乎把所有的排列組合試了一遍,可以說是“粒粒皆辛苦”。
“強人工智能”的來臨
在2018年微軟全球開發者大會上,微軟推出的未來會議室使用360度相機和麥克風陣列,可以檢測會議室中的任何人說話,並基於語義分析的會議紀要功能,進行實時同傳+速記。
2019年5月7日,一年一度的全球開發者大會上,微軟公布的未來會議室再升級。普通麥克風可“秒變”虛擬麥克風陣列,將現有設備 (如手機或筆記本電腦) 與普通麥克風如搭樂高積木一般動態地組合成一個更大的陣列,幫助客戶在有或沒有專門的麥克風陣列 DDK 的情況下都可以更容易地轉寫對話,隨時隨地使用 Azure 語音服務。例如,可以對多個 Microsoft Translator 應用程序進行配對,更有效地幫助多人使用移動電話進行溝通,從而將語言障礙降到最低。
這離不開黃學東的努力。作為微軟的首席語音科學家,黃學東率領團隊實現了 AI 超越人類水平的曆史性裏程碑:2017年,在對話語音轉寫任務中,微軟語音識別係統的詞錯率降到 5.1%,準確率超過專業速記員。2018 年,在漢英新聞機器翻譯任務中,微軟機器翻譯係統達到了可與人工翻譯媲美的水平。2019 年,在斯坦福對話式問答任務中,微軟機器閱讀理解係統刷新記錄,成為目前排行榜上唯一一個模型分數超過人類分數的團隊。
黃學東告訴星辰全媒體記者,語音識別基本解決了,隻要有足夠的計算資源、有足夠多的場景數據就可以做得很好。下一步,是要做好語義理解。計算機語言識別是“感知”智能,因為深度學習、神經網絡實現了突破,而“認知”是包括推理、理解上下文、自然語言處理,尚有待開發。機器翻譯,則在感知和認知之間一個曆史性的裏程碑。
“讓我們想象一下,如果有一天,機器可以理解我們所有的文本,了解上下文,有推理的功能,那麼這意味著機器可以 24 小時閱讀所有的新聞、所有出版過的文件、著作、科學文獻,它可以上知天文下知地理,包括生物,這是不是比愛因斯坦還牛?——這才是真正的‘強人工智能’的來臨。”黃學東興奮地說。
來源:自在星辰