當前位置:係統粉 >   IT資訊 >   微軟資訊 >  重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配

時間:2018-03-28 來源:互聯網 瀏覽量:

3月28日消息 在上一周,報道了微軟正式推出新一代全雙工語音交互技術的消息,該技術已經在小冰全球產品線中落地。3月28日,微軟在北京微軟亞太研發集團大樓舉辦了小冰技術交流會,作為主流科技媒體受邀參加,一起見證了微軟小冰全雙工語音交互技術的深度揭秘,及新的人工智能基礎架構的改變。

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(1)

此前,微軟(亞洲)互聯網工程院宣布率先推出新一代的語音交互技術:全雙工語音交互感官(Full-duplex Voice Sense),並已完成產品化落地。與既有的單輪或多輪連續語音識別不同,這項新技術可實時預測人類即將說出的內容,實時生成回應並控製對話節奏,從而使長程語音交互成為可能。此外,采用該技術的智能硬件設備,將不再需要用戶在每輪交互時都說出喚醒詞,僅需一次喚醒,就可以輕鬆實現連續對話,將語音交互的自然度推進到一個新的層次。比如之前微軟和小米旗下米家生態鏈合作推出的Yeelight語音助手,就是全球首個搭載全雙工語音交互感官的智能設備,也是內置微軟小冰的首個“雙AI”智能設備。

那麼微軟在小冰上核心基礎框架有何改變呢?

微軟(亞洲)互聯網工程院副院長李笛開場就表示,現在對話式人工智能基礎框架的理念之爭正在發生變化,由之前的Turn-oriented命令框架,麵向單個任務,轉向基於Session-oriented框架,麵向整個對話全程的技術變革。特別是微軟,已經實現了人工智能基礎框架的轉變,並且預測這將是人工智能發展的趨勢變化。

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(2)

▲微軟(亞洲)互聯網工程院副院長李笛

微軟在小冰技術交流會上表示,目前大多數的智能音箱或智能語音助手采用的是Turn-oriented框架,對話如十字路口,當用戶提出問題後會將其引導到特定的場景並最大理想化完成特定任務。而小冰和微軟研究發展的Session-oriented框架,對話如河流,在整個過程中既包含任務,也包括一些“無用的”對話,但這些對話中也可能引申出新的任務,並以更加自然交互的方式完成整個對話。

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(3)

微軟強調,基於Turn-oriented的框架因其存在上限,決定了這種內在基礎的發展空間難以提高。目前新推出的Session-oriented框架還有很大的上升空間,其中的全雙工語音交互感官功能是Session-oriented框架的最後一環,實際結構上是IQ貫穿和基於EQ之上,這也是之前微軟大力發展基於情感的人工智能成果表現。

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(4)

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(5)

▲微軟小冰全球研發負責人、首席架構師周力

在小冰技術交流會上,微軟小冰全球研發負責人、首席架構師周力披露了部分技術特征:

邊聽邊想:預測模型,現在無需等待用戶把一句話說完,再進行語音識別,現在可以聽到語音後就會提前預測用戶的完整意思,與此同時,開始思考回應,以實現更快的響應速度和改口能力;動態回應,不再是用戶輸入一條,人工智能回應一條的回合製,而是根據預估思考時間、複雜任務的完成時間,有選擇的將回答分成多段,減少用戶感知的等待時間。這在搭載小冰的Yeelight語音助手等IoT等物聯網設備使用體驗上至關重要,使用自然交互,減少一些等待時間就能感覺到舒爽。

重磅!微軟揭秘新一代全雙工語音交互技術:AI新標配(6)

節奏控製器:節奏協調,包括與人工智能自己的協調,與人類對話的協調,還有和其他語音助手的協調,時機和內容同等重要。另外人工智能能否主動引導拋出新話題,提供新內容,打破沉默是重要特征;還有隨著全雙工語音交互技術的普及,和人類一樣的非對稱對話模式。

聲音場景的理解:全雙工語音交互場景包括分類器,比如語音身份的識別(男、女、兒童),觸發不同內容的對話,語音情緒識別、音樂/歌聲識別等;環境處理,針對背景的噪聲識別與回聲消除,小冰作為內容提供者和小冰語音助手混合狀態,動態音量識別與調整。比如在小冰講故事的時候,讓音箱聲音變小變大,小冰隻是默默執行任務,但並不會打斷講故事這一場景;對象判斷,支持了語音聲紋識別,每個設備對應數個主要用戶和新用戶,是否在和小冰說話等,比如多人聊天、電視背景音,判斷用戶對話節奏來進行開始或停止響應。

自然語言理解與生成模型:實現更好的容錯性、與語音合成更好地串行、基於整個對話場景的上下文理解,主動掛斷的動態判斷,基於時間、整個對話的內容、用戶意圖分類,動態決定小冰是否主動結束session。

報道,微軟此前表示,語音交互是對話式人工智能及智能硬件設備的基礎之一。全雙工語音交互技術的應用,有望實現用戶體驗的下一次飛躍,並成為人工智能語音交互的新“標準配置”。

我要分享:

最新熱門遊戲

版權信息

Copyright @ 2011 係統粉 版權聲明 最新發布內容 網站導航