當前位置：係統粉 > IT資訊 > 微軟資訊 > 「GET2017」微軟崔宏禹：神經腦科學未突破之前，深度學習仍麵臨瓶頸

「GET2017」微軟崔宏禹：神經腦科學未突破之前，深度學習仍麵臨瓶頸

時間：2017-11-18 來源：互聯網瀏覽量：

（崔宏禹分享現場）

11月16日，在GET2017教育科技大會“人工智能論壇”上，微軟中國技術總監崔宏禹分享了他對深度學習的理解，並介紹了微軟在人工智能領域研究的三個方向。微軟1000多位工程師開發了一些認知服務與機器人框架，向所有開發者開放。

崔宏禹說，機器學習不是一個新課題，它是以統計理論為基礎的學科。基於現有、過去大批量的數據，通過統計學原理找到數據背後的規律。認知服務實際上是機器深度學習的結果。他介紹微軟的認知服務包括視覺、語言、語音、搜索知識。

他特別強調視覺在個性化學習的重要性。在機器與人的交互過程中，通過視覺分析識別當前學習者處於的情緒狀態，及時給教學者反饋。但他也坦然，五六十年代神經腦科學就在對神經網絡進行研究，但至今沒有大的突破。在神經腦科學沒有突破之前，基於大量數據做視覺和情緒識別分析仍然很難。崔宏禹認為，這依賴於所有科學家，包括計算科學、數據科學、神經科學、腦科學一起努力，才能保證未來深度學習的過程。

微軟的認知服務和機器人框架

各位大家早上好，非常榮新今天能有機會在GET大會上給大家做一個介紹，從技術和平台角度來看，我們在人工智能這兩年在做什麼，人工智能到底能給我們帶來一些什麼樣的改變，或者說人工智能在現階段的研究過程當中，還存在哪些不足。我們可以把這些技術怎麼更好用到教育和產業當中去。

我們現在講人工智能，目前為止我認為都還在機器智能這樣一個階段。是基於大量數據，以及所謂深度學習算法基礎之上出來的機器智能的說法。為什麼我特別說，我不願意過分的強調人工智能。因為從50年代，人對神經科學的認知一直到現在，沒有特別理論上大的突破。所以就造成了我們對整個人工智能領域一些相關產業上可能會有一點誤解。但這不妨礙我們在人工智能領域有一些現成的內容和一些現成的場景出現。

微軟人工智能所謂三重境界，是我們超過1000多位工程師所承載的這樣一個平台，給大家提供的福利。很多人在講人工智能的時候都在說一個問題，人工智能是很高大上的東西，我們到底該怎麼用，我們能不能用。對今天在座的很多老師和很多學生，還有很多教育產業從業者來說，人工智能很高大上的東西，怎樣盡快地享受到人工智能給我們帶來的福利。

這張圖是模仿整個人的思維構造。具體就是人的“身體發膚”，包括我們的神經、血液和所有的器官。在這個基礎之上，我們才有認知，常用的聽說讀寫看。但是人還有另外一些感覺叫認知，我能夠知道你這會兒是高興的，我知道你是沮喪的，你這會兒可能是無所謂的表情。所以在這個基礎上我們要有認知。認知基礎之上，我們抽取到自然界和社會當中所有的信息以後、感知到信息以後，我們才有一些創造，這是完全基於數據的創造。

在數據的基礎之上，我們通過加工產生一些新的智慧，我們發明了一些新的算法、發明了一些新的產品，這是人的過程。相對於機器來說是這樣一個過程，底層有一個非常龐大的計算資源。不管是雲計算平台還是自有的數據中心計算平台都離不開這個。

這個基礎之上我們開發一些認知服務和機器人框架。這是微軟的說法。什麼是認知服務？一個小朋友看到一張照片，能準確說出這張照片上有一隻狗、兩隻貓，很簡單。但是如果讓機器讀這張照片上有幾隻貓、幾隻狗，狗的品種是什麼，這是很難的事情。能夠寫出算法，能夠準確地分辨照片上有一隻貓兩隻狗三張桌子四把椅子這樣的信息出來。我有個同事跟我說，我有一個很簡單的分法，能夠寫這個算法的人在北京年薪起碼在100-150萬以上。

我們現在認知服務，想法很簡單，我們想讓小朋友都能夠準確的判定內容的過程。讓它平民化，讓大家通過簡單的API方式就能夠用到。這是我們的認知服務，加上一個機器人框架以後，更方便做溝通渠道交流。

除了這個以外，我們還有一些機器學習和數據分析的方法。所有學習過程我們要有大量數據，大量數據背後要做計算，計算的結果才能給我們下一步教學行動給出一個建議。所有的過程，都是在這個基礎之上的。

視覺在個性化學習中的應用

實際上機器學習不是一個新的課題，它是以統計理論為基礎的學科，基於現有的、過去大批量的數據之上，通過一些統計學的原理，找到大量數據背後的規律。比如說我們能找出溫度和濕度，還有房間空間大小變化的規律，那我預測未來進入到一個新的空間裏麵以後，它的溫度和濕度的變化情況。

我剛才本來想脫口而出，尿布和啤酒的故事，這個故事講得太多了。基於統計學的方式，能夠實現一些基本的算法。有數據表明，你的數據超過100萬的話，不管在考試題目判斷上，還是在學習計劃行動上，人是可以接受的。如果你的樣本數據超過1000萬，不管是語音訓練、口型的訓練，還是試卷的一些判斷，或者是參加考試。你的準確率很有可能超過人的判斷力。

我們微軟亞洲研究院今年6月份剛剛發布，我們對英語語音爭取的識別率，錯誤率已經降到4%以下，而一般來講人的差錯率在5.8%-6%。也就是說遠遠超過人的識別率了。這都是基於學習和數據分析基礎之上，再加上我們現在新算法的突破。利用深度學習的基礎，我們不停深度的訓練，完成了以學習驅動學習的過程。

這是微軟人工智能的三重境界。同樣我想跟大家說，這也是業界在人工智能研究方麵的三個主要方向。在這個方向的認知服務上，我們提供了視覺、語言、語音、搜索知識等服務和方法。

我想重點給大家強調一下視覺，為什麼要強調視覺？就像剛才講的一樣，一方麵要知道你在什麼地方學，你學的過程中情緒化是什麼樣的。比如說我們要定製一個個性化學習課程，比如初中生要學一元二次方程。那一元二次方程每個人的學法是不一樣的，如果老師課堂教學很清楚知道這個課堂45個孩子每個人大概的表現是什麼樣子。如果當我在上麵講的時候，底下所有學生都是呆若木雞時，我認為我的教學方法可能有問題，或者這個學生掌握的有問題。而不僅僅隻是從課後的練習獲取整個教學的過程。整個教學交互的過程中，當我講的過程當中，如果所有學生麵部表情都是非常輕鬆的，那我認為這個課非常成功，學生掌握的也非常好，我可能快速的就過去了。

視覺來幹什麼事情呢？就是能夠在機器和人交互過程中，通過機器的方法判斷，當前聽眾處於什麼樣的狀態。他到底是非常高興的，還是一個非常痛苦的學習過程。所以，這個很簡單，我能告訴大家的事情是，我們通過簡單的API，能夠把一個教室當中的學生，45個孩子，所有麵部表情都能識別出來，都知道他當前處在一個什麼樣的狀態。通過這些信息的加入，能夠精準化衡量教學的結果，這是一個認知服務。

我想通過一個視頻給大家看一下，認知服務到底怎麼來看待。這個視頻當中的主人公是我在美國的同事，他是一位盲人，但他是微軟的程序員。因為現有技術，通過簡單聽說讀寫，能夠讓他感知到鍵盤應該怎麼敲，一本書寫的是什麼。但是當他跟他的同事開會的時候，他沒有辦法判斷，沒有辦法知道對麵同事是什麼表情。就像這個一樣，在他麵前這個人到底是做什麼。光聽好像是有嘩啦啦的聲音，這個聲音到底是什麼，他不知道。也就是說他不知道他周圍的環境。他可以正常去寫程序，但是他不知道周圍的環境。他也不知道他在開會的過程中，跟他同事溝通的過程當中，他同事到底是讚同的，還是反對的。

他就通過微軟的認知服務，視覺服務，很清楚的感知到他對麵的聽眾是什麼樣的反饋，他能知道對麵有一男一女，年齡大概多少，對他剛才講的話是讚同，還是吃驚，還是什麼。這代表下一步才能有反饋。

所以，隻有當你把你周圍環境都感知進來的時候，才掌握了這個世界，才掌握了學習過程當中所有的環節，才能很準確判斷下一步該給這些學生一些什麼內容。我們在評價人和人之間溝通的過程中，絕對不隻有聽說讀寫，情緒是很重要的。但這個情緒恰恰就是我剛才講的，在我們神經腦科學的發展沒有突破之前，很可惜。五六十年代對人的神經網絡有研究，到現在為止沒有特別大的突破，沒有突破之前是很難的。我們也隻是嚐試，通過大量的數據得到了這個結果，但是這個結果遠遠不夠的。

深度學習依賴多領域科學突破

同樣還有深度學習，我羅列了市場上用得最多的幾個深度學習的開源算法，包括微軟的CNTK，包括Caffe、TensorFlow，這是微軟、亞馬遜、穀歌，以及Facebook這四家最主流的業界裏做人工智能基礎研究的科學家貢獻出來的深度學習算法。它利用了龐大的GPU計算能力，以及FPG的計算能力才能實現。但是現在已經到了一個瓶頸。以微軟的CNTK為例，我們現在152層的深度神經網絡。為什麼這麼多層次，我剛才講過了，層次越深，代表一張照片中信息是越多的。但是現在已經到了一個瓶頸，我們用再多的計算能力，再快的計算能力，有一些內容還是分別不出來。

這依賴於所有科學家，包括計算科學、數據科學、神經科學、腦科學一起去做這件事，才能保證未來深度學習的過程。

深度學習到底能帶來什麼？我剛才一直強調人和機器之間的交流，人和人之間情緒的判斷。那怎麼才能達到一個更自然的環境呢？這是微軟小冰，它會唱歌，尤其會寫詩，剛剛也出版了一本詩集《陽光失去了玻璃窗》，朦朧派的詩集。人工美少女小冰的進化完完全全是人工智能的背後，深度學習背後對它的訓練。

訓練的結果是什麼呢？大家先聽一段，這是去年4、5月時小冰剛第一版出來，它全合成唱歌的聲音。它不是想模仿某一個人的個性，如果小冰要去模仿，直接把張韶涵的原聲采集過來學習，可能就很清楚了。但是我們特意不想把它模仿某一個特定的個性，我們就想讓它就是它，以它的個性方式來唱出這首歌。一年前的這首歌不知道大家聽出來沒有，金屬音特別重，變化之間特別深。從去年到今年9月，持續一年訓練以後，我們再來聽聽今年它唱這首歌時是什麼樣的聲調。仔細想想剛才的聲音，它非常接近人的自然發音，尤其音調之間起承轉合，非常符合人的聲音。

這個過程就是剛才講的大量數據，大量人發聲的過程，大量人音調之間轉合的方式，給它做訓練，最後得到這樣一個結果。我們能不能在未來，跟AI相關的課程學習當中，跟我對話的機器老師、AI老師，能不能它的語調自然一點。我想這就是一個非常好的例子。

所有背後的技術，最基礎的是認知服務，認知服務實際上是深度學習的結果，誰都可以去用，任何一個開發者都可以去用。你也可以自己訓練出另外一個小冰出來，所以這是一個基礎的架構和服務。

兩年前我們和英國BBC合作，這個板子叫邁克Bid，現在在國內的各大電商網站都能買到，很便宜，很薄的板子。它有LED顯示能夠加一些傳感器，最右上角這塊我們結合了一個在線編程的界麵。談到編程大家不要錯誤理解，我一定要學C++或者是JAVA之類的語言。這個編程完全麵向中小學生甚至是幼兒園。它是插件式的。我們不要去寫Hello Word，也不要寫if什麼。我想讓這個板子出一個笑臉出來，我就把笑臉插進去；我想讓這個板子出一個哭臉，我就把這個哭的放進去；我想讓板子獲取溫度，我就把溫度的標簽給加上去。非常簡單。它背後就是我們認知服務裏麵的API，再加上微軟同事和BBC同事他們一起做的這樣一個架構。

這裏我想傳遞另外一個信息，我們不是想教中小學生去學編程，我們想改變人工智能認知的一個思維方式。人工智能在各個行業裏的使用可能會在未來改變我們的思維模式，由確定性思維模式改變為不確定的思維模式。這種思維模式是需要訓練的。我們現在很多人很難馬上改過去，你不經過訓練習慣是改不了的。思維模式也是一樣。我們想通過機器板卡和外界感知這幾個方麵，從小朋友訓練人工智能給我們帶來的所謂不確定思維方式。

人工智能給我們帶來了很大便利，甚至改變了我們的行業。我想送給大家一句話，今天的異想天開將是明天的常態。人工智能會給所有行業帶來改變，人工智能也會對我們的思維模式產生改變。謝謝大家！

我要分享：

上一篇：微軟確認11月補丁會導致愛普生打印機無法打印（附解決方案） 下一篇：最新WIN10下載：WIN10的那些事