當前位置：係統粉 > IT資訊 > 微軟資訊 > 路漫漫其修遠兮，微軟和友商的“全雙工”之路

路漫漫其修遠兮，微軟和友商的“全雙工”之路

時間：2018-05-25 來源：互聯網瀏覽量：

在日前舉辦的Google I/O大會上，Google展示了令人瞠目結舌的Google Duplex人機對話功能；而在近日召的開倫敦AI大會上，微軟CEO薩提亞·納德拉展示了“小冰”具有全雙工打電話的能力。小冰是由微軟研發的對話式人工智能，現在她已經擁有了5億用戶，可以在微信等16個IM平台上和用戶對話。可能國內很多人對小冰並不陌生，她是人工智能界的網紅，剛剛發布自己作詞演唱的新單曲，又搖身一變成了詩人，幫人類創作詩歌，不久還將發布與人類聯合創作的定製化兒童故事。

早在穀歌之前，小冰已具備全雙工語音交互技術（Full-Duplex Voice Sense），實現“打電話”的能力，不同於穀歌，小冰的全雙工技術已完成產品化落地。據了解，自2016年8月起，在明確告知用戶的前提下，小冰已經和人類用戶累計完成了超過60萬通全雙工電話。微軟還與小米生態鏈合作推出Yeelight語音助手，據微軟稱，這也是市麵上首個使用了全雙工語音技術的IoT產品。微軟此前還公布，用戶與Yeelight語音助手中的小冰最長的一次對話進行了6個小時之久，這場對話共涉及8個領域，53個話題，小冰還幫助用戶完成了16個任務。在本次大會上的一段小冰與用戶交談的視頻中，小冰能夠用全雙工語音和用戶電話交流，主動關心對方，還順便幫用戶完成了設定鬧鍾、提醒天氣等任務。

視頻加載中...

但可以發現與穀歌Duplex相比，小冰的語音自然度落了下風。在Google I/O大會現場，新一代穀歌語音助手不僅順利完成了電話預約理發店的全過程，而且在交談中還出現了“嗯哼”這樣的語氣詞，引起了全場的尖叫。據了解，穀歌將在今年夏季與合作廠商發行這種搭載了“穀歌語音助手”帶顯示屏的音箱。

微軟和穀歌，不約而同地相繼選擇了全雙工的對話模式，讓人工智能和人類如通電話一般地進行雙向交流。相對地，以亞馬遜Alexa、蘋果Siri為代表的智能語音助手所使用的技術則是“半雙工”，這就像往兩個麵對麵交流的人手裏塞了兩隻對講機，讓他們通過對講機一問一答，並且，他們之間的對話隻能圍繞一個確定的任務或問答進行。半雙工模式下人工智能也可以對答如流，但這並不代表半雙工是一種自然的人機交流方式。人永遠是提問者，而智能語音助手負責尋找答案，這也是很多人認為使用智能音箱很費勁的原因。

不過，同樣選擇了全雙工語音的微軟和穀歌，技術上的實現方式並不相同。

穀歌Duplex的核心是循環神經網絡，值得注意的，Duplex 的訓練數據來自一些具體的場景，例如預定餐廳，讓AI能夠充分地學習這些封閉場景音頻中的特征、對話曆史、對話參數（比如要預定的服務，當前時間）等等。在係統運行中，輸入語音先經過自動語音識別係統（ASR）處理，生成的文本會與上下文數據以及其它輸入一起輸入 RNN 網絡，生成的應答文本再通過文本轉語音（TTS）係統讀出來。穀歌還花費了數月時間采集真人聲音，訓練出聲音和語調與真人幾乎一致的TTS語音係統。在語言理解、交互、時間控製、語音生成上的技術突破幫助穀歌Duplex獲得了相當真實自然的語音，也能夠出色地幫用戶完成某項具體的任務。

微軟小冰的學習電話交流的過程更為漫長。最初小冰的設定是以EQ為發展方向的對話式人工智能，過去幾年中，小冰在五個國家的IM平台上和人類進行了大量的對話交流，積累了超過300億輪的超大規模對話數據，這讓生成模型得以應用。微軟此前表示，小冰之所以能做到區別於其他產品的長程語音，其中的關鍵之一便是小冰應用了生成模型，可以根據用戶的問題自創回應，區別於以往通過理解用戶的問題，尋找最合適的話作為回答的方式。此外，微軟還應用聲音場景識別、節奏控製器等技術增加小冰對話的真實感。這些技術讓小冰可以針對開放領域的任意話題展開對話，還能夠主動控製對話節奏，甚至引導對話方向。

穀歌在Google AI 博客中表示，在研究中，把Duplex 的功能限製在封閉的場景中是非常重要的，這些場景涵蓋的內容非常少，可以讓AI充分地學習這些場景中的對話。也就是說，穀歌Duplex良好的對話表現隻能限定在某些特定的場景和具體的任務中，一旦對話偏離了場景和任務，Duplex就無法施展拳腳。

與穀歌不同的是，小冰的對話不局限於某個場景或任務，這或許在某種程度上限製了她的語音自然度，但也讓她可以和人類談論任何一個話題，而其中那些看似無用的閑聊，可能經過幾輪對話之後引發出一個關鍵的任務需求。從技術實現來看，顯然開放領域的聊天似乎更困難一些，AI並沒有像人類那樣舉一反三的能力，若要讓AI學會聊一個話題，就必須對它進行這一話題的訓練。

微軟和穀歌相繼推出全雙工語音技術，似乎預示著人工智能業界的頂級公司正在朝同一個方向前行，要讓人機交互真正轉變為人機交流。但是，全雙工技術誰先誰後發布，技術上誰長誰短，當下或許還沒有必要爭奪。不管是誰家的AI，距離產品真正的廣泛應用，還任重而道遠。

我要分享：

上一篇：微軟CEO談AI：我們創造的未來其實是自己選擇的微軟 下一篇：微軟OneDrive成企業最受歡迎雲存儲