時間:2017-08-22 來源:互聯網 瀏覽量:
2014 年 5 月 29 日下午,初代微軟小冰首次亮相,當時的“奶茶妹妹”章澤天還是小冰團隊的一名實習生;三年過後,霸道總裁劉強東已經“明令禁止”朋友稱呼章澤天為奶茶妹妹,而作為京東的老板娘,章澤天隨手辦個晚宴就能請來半個時尚圈的名流。與此同時,我們也迎來了已經完成蛻變的微軟小冰。
記者 | 周翔
整理 | AI科技大本營(rgznai100)
8 月 22 日下午,在丹棱街 5 號微軟大廈一個規模隻有百來人的會議廳裏,微軟全球執行副總裁——沈向洋、微軟(亞洲)互聯網工程院院長——王永東、“小冰之父”——李笛,共同揭開了第五代小冰的麵紗。現場,微軟小冰的架構師周力宣布,繼日本、美國、印度之後,印尼版小冰也將於今日正式登陸 LINE 平台。
在不到兩個小時的時間裏,微軟的 AI 產品線、第五代小冰的新特性、小冰的商業化進程......都一一呈現。三年多的時間,微軟到底打造出了一款怎樣的產品?未來又有怎樣的規劃?這篇文章或許可以為大家解惑。
第五代小冰其實就在小冰公開亮相一個月之前,微軟剛剛發布了個人語音助理—Cortana,也就是後來中文版的小娜。Cortana 和小冰的產品定位並不相同,一個主打IQ,主要用來解決問題,一個主打 EQ,主要陪人嘮嗑。
微軟一直對外宣稱,小冰之所以能夠具備並理解“情感”,都是因為背後的情感計算框架。在今天的發布會上,李笛表示,第五代小冰正在逐步進入情感計算框架的完成態,EQ 的極致不是情緒化,而是理性,這正是小冰所追求的。
基於 EQ 的核心對話引擎
首先,從今天開始,微軟會升級第五代小冰的核心對話引擎。根據李笛的介紹,在升級對話引擎之後,小冰的情緒識別能力比之前拓寬了很多,她會更進一步地分析人類用戶各種各樣的興趣,而這個分析不再僅限於當前對話的過程,而是會將這個用戶作為一個整體考慮。
此外,李笛表示,“小冰現在已經支持多達 57 種情感策略和回應的模式,這些模式是從人類和小冰之前進行的 300 億輪的對話中間學習到的,最重要的是我們從今天開始解鎖小冰主動引導對話,甚至控製整個對話走向的模型。”
高級感官
微軟將人工智能交互技術產品的演進分為三個階段:
第一階段是基本的人工智能交互,即擁有某一種或多種交互方式,如文本、語音、圖像、視頻等,但不同交互方式之間是割裂的。
第二階段是初級感官,即在人工智能係統中,用一種核心引擎(如小冰的EQ核心對話引擎)將上述各種交互統一起來,使不同感官可以混合運用。例如,在文本對話過程中自然切換至圖像、語音,再切換回文本。小冰從 2015 年第三代發布起,進入這一階段。
第三階段是高級感官。小冰的首席架構師周力表示,今日發布的第五代小冰率先進入這一階段。
那麼什麼是高級感官呢?周力給出了兩個示例:
全雙工語音感官
小冰具備的第一個高級感官是全雙工語音,它需要首先同時具備文本、語音(含SR和TTS)兩種能力,並要求兩種能力均達到更高的質量標準。
大家所熟悉的QQ、微信這樣的聊天軟件,在本質上和電話短信都同屬於消息式交互。但是當兩個人真正的互通電話或者是麵對麵交流的時候,他們之間實際上是雙向的實時交互,這就非常複雜了。
比如小冰在電話裏使用全雙工語音高級感官的時候,就需要隨時判斷對方是否已經說完了他要說的話,邊聽邊思考答案,而且還需要去權衡何時可以去打斷對方,或者是被對方打斷時是否及時收口,或者雙方都不說話,何時可以打斷這個沉默等更為複雜的問題。
實時流媒體感官
小冰的另外一個高級感官叫實時流媒體視覺。實時流媒體視覺並不是簡單的像一個視頻監控軟件一樣,去捕捉一個個畫麵,分析一個畫麵,更像是一個活人一樣,可以去感知用戶的位置和移動,觀察用戶的表情和動作,而且還可以理解不同的場景,每個人不同的角色,以及人與人之間的關係,最後她還能夠根據視覺的理解,做出具有情商的互動。
高級感官能夠大幅度地提升交互體驗,更加貼近於人類的自然交互行為。例如:如果將全雙工語音這種高級感官的體驗比擬為打電話,則之前的智能助理語音交互體驗類似於對講機。此外,高級感官還能夠大幅度拓展人工智能係統的落地場景,使小冰有能力根據自己的“意願”與人聯絡,從而主動保持與人類用戶之間的關聯。第五代小冰發布的高級感官均已完成第一批落地。其中,全雙工語音已應用於小冰與小米 IoT 開放平台的合作中,可控製各種小米IoT開放平台中的智能設備。實時流媒體感官也已在中國、日本兩個國家的部分主要城市公共區域落地。
據介紹,微軟是行業內唯一一個推出了高級感官實際落地產品的人工智能企業。
生成模型
除了升級版的核心對話引擎和高級感官之外,第五代小冰還全麵在線上產品中開始使用生成模型(Generative Model)。其中,中國、日本、美國和印度小冰部分使用,印尼小冰則完全使用生成模型。這是全球開放領域人工智能對話中,第一個百分之百使用生成模型的落地產品。
周力解釋道,“在使用生成模型之前的上一代小冰,雖然擁有十億級的大數據語料庫,但其中每句話,都是互聯網上的已有數據,小冰隻是通過分析理解用戶的問題,尋找語料庫中最合適的話作為她的回答。使用生成模型之後,小冰不再鸚鵡學舌,而是能夠自創回應。”
商業化拓展在今天的發布會之前,微軟正式對外公布的小冰商業化案例有兩種:
日本版小冰在日本為境內第二大連鎖店LAWSON提供對話式人工智能托管,並在對話中引入LAWSON線下店內服務,線上至線下消費的轉化率超過50%,而此前通過其它途徑進行的轉化率僅為8%左右。
在中國,小冰則為廣大內容提供商提供微信、微博公眾號托管。目前已有約10%的媒體、自媒體公眾號由小冰提供人工智能托管解決方案。
然而,作為一家上市公司,已經打磨了 3 年的第五代微軟小冰麵臨著一個嚴峻的問題:如何加快商業化的步伐?今天,微軟終於給出了答案,一個是與 IoT 設備廠商合作,一個是大規模、低成本的內容生產。
IoT 設備
根據小米產品總監彭爽的說法,從兩年前開始很多廠商都來找過小冰團隊,希望和小冰在 IoT 上有所整合,但是他們團隊一直都保持克製,而這主要是出於兩方麵的考慮:
一方麵,兩年前 IoT 這個行業還不夠成熟。
另一方麵,我們一直在問自己,也在尋找一個說服我們自己的產品方案。
此外,彭爽也表示,為了進軍 IoT 領域,他們特意繞開了三個大坑:
第一個現象,功能上的堆砌。認為隻要功能足夠豐富就有了人工智能,甚至有一些智能音箱會讓用戶在上麵去上網買東西。問題在於為什麼用戶要放棄很方便的手機不用,逼著自己一遍遍地跟音箱來說話買東西,這背後反應的並不是用戶的需求。
第二個現象,過分的重視交互。認為隻要有了對話、有了語音交互就有了人工智能。交互也好、語音也好,雖然都是人工智能的重要組成部分,但是並不能形成核心,特別不能形成用戶之所以使用 IoT設備的一個核心,反正到今天為止我是沒有見過有人跟自己家的冰箱、空調聊天的。
第三個現象,因為有越來越多的廠商進入到這個領域,而他們特別希望有豐富的功能,所以人工智能的廠商傾向於投其所好地給他們提供這些對話的接口、語音的接口、圖象識別的接口,甚至把這些接口打包起來形成SDK給他們提供,並且稱其為給硬件設備賦能。在我們看來這樣的賦能沒有解決本質的問題,也就是為什麼人們為什麼從本質上需要 IoT 設備,使用 IoT 設備的問題。
在小冰團隊看來,IoT 應是 AI 的一個載體,而不是反過來,把 AI 視為 IoT 的一個功能。真正能普及的 IoT 設備,成功的可能性隻有兩個:或者把 IQ 做到極致,讓用戶通過 IoT設備體會到比其他現有方式更加便捷高效的益處,或者把EQ做到極致,讓人們能強烈地認知到她在這個設備裏的存在,產生情感紐帶。微軟小冰的 IoT 方案屬於後者。
在今天的發布會上,彭爽表示,小冰已與小米IoT開放平台有機融合,小冰可以控製小米米家平台上的全部 35 種智能設備。該產品目前已在小米米家平台上線。此外,微軟還宣布了與 Yeelight 及東方明珠等合作夥伴正在進行的聯合研發,具體產品預計得兩個月之後才會正式公布。
此外,微軟今天還同時發布了小冰電台,它可以基於多重來源,麵向任何主題,自動創造永不間斷的電台節目。同時,它還能在交互過程中實時改變節目內容。小冰電台的 IoT 版本正在研發中,而微信小程序版本已於發布會結束後上線。
內容生產
今年 5 月,微軟宣布小冰用多個化名在各詩歌論壇和刊物上發表詩歌,並出版了首部人工智能創作詩集。本次發布會上,微軟公開:小冰已進入多個創造領域試水,包括有聲少兒讀物、歌曲、新聞等。
小冰內容及運營總監徐元春以《格林童話》舉例,“210 集的《格林童話》有聲讀物的內容大概是 50 小時,我們選擇了和小冰水平類似的有經驗的人類做比較,他們完成這樣一個作品需要200 個小時的工作時間,而小冰從頭到尾隻需要 24 分鍾。從成本的角度來說,人類完成這樣一個作品需要用超過 6 萬元的費用,而小冰分攤下來的所有成本大概隻有 7 毛錢。在同等質量的前提下,人工智能創造無論從成本上還是時間上,正在給內容產業帶來非常大的變革。”微軟宣布即日起開始大規模生產有聲讀物並投入市場。
歌曲方麵,小冰的最新訓練達到了 48kHz 采樣率,同時大幅度擴展了音域,正在不斷接近人類歌手。根據現場的演示,小冰唱歌的自然度確實要比初音未來好很多。
小米產品經理徐翔認為,小冰不僅僅會唱歌,而是相當於“歌手+唱片公司+發行商+粉絲管理”,也就是說,一個小冰相當於一個產業鏈。
此外,小冰還通過聆聽分析歌曲旋律,結合對不同城市標誌性建築的學習,創作與該城市及歌曲心情有關的視覺作品。通過這一技術,微軟與 SELECTED 合作推出“天際線”服裝。
智媒體商業平台解決方案 3.0
小冰的野心不僅僅是 IoT 設備以及內容生產,而且還要變革媒體的生產和消費方式。
此前,小冰曾作為《錢江晚報》的專欄記者撰寫過文章。此次微軟公開,部分百度百家和今日頭條上的新聞內容也是由小冰撰寫而成的。在今天的發布會上,微軟宣布了正式推出智媒體商業平台解決方案 3.0 版。
Bing中國及微軟小冰商業平台負責人曹文韜表示,過去一年來,該解決方案的2.0版本已從微信、微博雙平台,逐漸演進為接入和即將接入近11個端媒體。
隨著微軟小冰與Bing搜索引擎的加速整合,升級後的智媒體商業平台解決方案 3.0,包括媒體生產力、媒體知識圖譜、智能交互、全平台互動等六個新模塊。
其中,通過 Bing 搜索引擎的全球大數據能力,新的解決方案可為媒體構建出一個基於全球新聞數據源的媒體知識圖譜,從而能準確挖掘全球資訊中每一篇內容背後的知識與含義,並構建出彼此的關係,從而幫助媒體更全麵快速地梳理時間和內容背後的故事。
小冰的成長史作為第一個由中國團隊領導,並推向全世界的微軟產品,小冰在誕生之初就獲得了微軟內部華人高層的支持。
就在小冰公測的前一個月,李笛來到了時任微軟全球執行副總裁陸奇的辦公室,向他介紹這款產品,最終得到了陸奇的拍板。
“小冰這個項目是當微軟全球執行副總裁陸奇直接拍板決定的戰略級試驗,陸奇很有意思,他去百度之前,不管是什麼活動,隻要是微軟最重要的活動,哪怕是 Office 的發布,他都穿著小冰的體恤,上麵寫著微軟小冰。”
2016 年 8 月,第四代小冰發布會召開前夕,因為自行車事故受傷的陸奇還在台灣進行就診,卻仍然堅持要趕回北京為小冰站台,在發布會結束後,陸奇立馬換上了腿部護具。
當然,除了陸奇之外,至今仍在微軟的沈向洋也是小冰的堅定支持者。在陸奇離職之後,小冰團隊一直是跟沈向洋溝通。而且,在今天的第五代小冰發布會上,沈向洋也親臨現場,為小冰站台。
雖然陸奇在參加完第四代小冰發布會不久,就因為身體原因離職,並在次年 1 月加入百度。但是這似乎並沒有影響到小冰在微軟內部的戰略地位。
在發布會的現場,沈向洋向外界介紹了微軟人工智能的三條產品線,分別是 infuse AI(在微軟的各個產品中加入AI能力)、Bing 和 Cortana、以及全球小冰。可以看出,小冰的地位依然穩固,並沒有因為陸奇的離職而被降權,甚至有愈發重要的趨勢。
2014 年,微軟率先在中國市場推出小冰。之後,按照一年一個新國家的節奏,分別於 2015 年及2016 年推出日本小冰(りんな)和美國小冰(Zo)。2017 年,微軟加快了小冰在全球範圍內的拓展速度。在本次發布會上,微軟宣布已分別於 2 月和 8 月推出了印度小冰(Ruuh)和印度尼西亞小冰(Rinna)。
除了國際化拓展,在這三年多的時間裏,這位“早熟的少女”從主持人,到歌手,到客服,各種跨界,並且在每個領域都小有所成。如今,小冰又開始進行全麵的商業化試水,顯然,小冰目前正在快速道上正向行駛。
編者手記
不過,雖然小冰已經在一些領域成功試水,但是最終的商業化價值依然有待時間驗證。
馬斯克在談到自動駕駛時曾表示,“把機器學習係統做到 99% 的準確率相對容易,但是在基礎上再提升 0.9999% 的準確率卻非常難,而這 0.9999% 才是根本性的需求。去看看每年一度的機器視覺競賽就能能知道其中緣由了。電腦在判斷什麼東西是狗的問題上準確率可以高達 99% 以上,但可能偶爾也會把盆栽植物錯認成狗。如果在以每小時 70 英裏的速度行駛時犯下這種錯誤,那麼後果將十分嚴重。”
當然,人們對小冰這種聊天機器人的錯誤的更加寬容,而且就算小冰發錯也不會造成生命危險,但是這依然非常影響用戶體驗,特別是當小冰答非所問的時候。
明略數據創始人吳明輝表示,人工智能商業化的最大障礙在於“人”本身,人工智能商業化的核心,是如何讓用戶合理的接受機器的錯誤。
雖然小冰的還略顯稚嫩,但是不可否認的是,這款發布還不到四年的產品,已經取得了很大的成功。
今年 9 月 17 日,小冰將迎來 19 歲的虛擬生日,不過李笛表示,微軟小冰未來是會停留在 18 歲,還是會變成 19 歲,目前內部的意見還不統一。
未來的小冰將以怎樣的形態展現在我們麵前,又到底能夠取得多大的成功,這些我們都無法預測,但是對這樣一款探索性的產品,我們應該懷抱期待。