時間:2018-03-15 來源:互聯網 瀏覽量:
本周三,微軟公司的研究人員透露,其研發的機器翻譯係統首次在通用新聞的漢譯英上達到了人類專業水平,實現了自然語言處理的又一裏程碑突破。
由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣布,其研發的機器翻譯係統在通用新聞報道的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報道的翻譯質量和準確率上媲美人類專業譯者的翻譯係統。
微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東博士表示,這是自然語言處理領域的一項裏程碑式的成就。“這是我們的情懷,是非常有意義的工作,”黃學東接受媒體采訪時表示:“消除語言障礙,讓人們能更好地溝通,非常有價值,值得我們多年來不斷為此付出努力。”
黃學東驕傲地說,2015年微軟率先在圖像識別ImageNet數據集達到人類水平,2016年在Switchboard對話語義識別達到人類水平,2017在斯坦福問答數據集SQuAD上達到人類水平,今天又在機器翻譯上達到人類水平,一路走來,微軟的進步激動人心,“這是我們共同的成就,我們是站在同行的肩膀上往上走”。
黃學東表示,微軟語音和NLP組在成立時,便立下了要在兩年後將機器翻譯做到人類專業水平的目標。如今,這一目標提前實現,“除了計算力的大幅提高,深度學習方法的提高,我們還結合了以前在Switchboard上取得的經驗,數據也做了很多整理,比如去除低質量的訓練數據,等等。”黃學東說。
“這既是技術上的突破,也是工程上的突破,是技術和工程的完美結合,隻有把過程中的每一件事情都做好,才能得到這樣的結果。”
據了解,為了能夠取得中-英翻譯的裏程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。其中,微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習(Dual Learning)和推敲網絡(Deliberation Networks)應用在了此次取得突破的機器翻譯係統中。
另外,基於之前的研究積累,自然語言計算組在此次的係統模型中增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規範(Agreement Regularization),以提高翻譯的準確性。
一直以來,複雜性讓機器翻譯成為一個極有挑戰性的問題,但也是一個極有意義的問題。對於此次的成功,研究團隊還表示,他們計劃將此次技術突破推廣到其他語言上麵,同時應用到微軟的商用多語言翻譯係統產品中。