時間:2017-05-13 來源:互聯網 瀏覽量:
機器學習的概念炒作時期顯然已經過去了,現在該進入實踐階段了。DTCC大會的第二天下午,來自百度、蘇寧、鏈家、微軟機器學習相關領域的技術人員分享了各自在機器學習方麵的進展。
百度顧曉光:基於深度學習的圖片檢索應用
如果要讓機器從一堆圖片中盡快找到符合條件的圖片,應該怎麼做呢?顧曉光表示,最常用的方式就是通過特征提取和排序算法來進行篩選。但隨著場景的複雜化,很多新問題接踵而至,比如圖片周邊文本關鍵詞準確率低(30%);來源於固定站點,無先驗偏好;用戶行為方麵是冷啟動,無曆史數據。這時,百度就開始思考,能否訓練模型直接對query和圖片進行相關性打分呢?
深度學習這時便派上了用場,比如圖像方麵,卷積神經網絡的應用、詞向量和序列模型在文本方麵的應用等。之後,將提取的關鍵字文本特征與圖片的圖像特征輸入打分模型,打分模型中會對文本特征和圖像特征進行拚接,然後進行特征嵌入,最後整個模型呈現出如下狀態:
談深度學習一定要談訓練數據,顧曉光透露目前的訓練數據有兩種來源:學術界來自於Flickr或MSCOCO;工業界主要來源於百度圖搜和Google圖搜,對應的形式則是文本query及對應的圖片列表。模型訓練主要是兩種方式:分類模型和排序模型。百度基於此也開源了自己的深度學習平台PaddlePaddle,其在易用性、靈活性、高效性和可伸縮性方麵均有不錯的性能,開發者可自行下載體驗,開源地址為https://github.com/PaddlePaddle/Paddle。
蘇寧李偉:蘇寧機器人對話係統實踐
最初,人們是在圖書館裏尋找資料、後來人們習慣於網絡檢索,現在智能機器人正在逐漸融入我們的生活。
下圖是蘇寧的智能機器人-小蘇,這樣一個軟萌的智能機器人對話係統又是如何實現的呢?李偉從對話係統概述、自然語言理解、對話管理、自然語言生成以及MI架構實現等方麵對此進行了分享。
對話係統類型大致有兩種:一是聊天類機器人,這類機器人在人們的生活中比較常見,可以基於某些話題或開放性話題進行免費對話,比如微軟的xiaolce和百度的Duer;另一類是任務機器人,為了完成特定任務而產生的,比如微軟的Cortana和蘋果的Siri。目前的對話係統主要有兩種模型實現方式:一是數據驅動模型,該類模型需要大規模的語料庫,同時基於檢索和生成的方法實現;另一類是交互驅動類模型,該模型在用戶和機器人之間形成在線交互,加強基於學習的方法。整個問答架構設計如下:
李偉介紹,對話係統組件有如下幾個:自動語音識別(ASR),識別語音信號轉換成文本表示;自然語言理解(NLU)、將文本轉換為語義表示;對話管理(DM),更新對話狀態並執行正確的操作;自然語言世界(NLG),根據當前(狀態,動作)選擇最佳答案,文本到語音合成(TTS),使用生成的文本合成自然語音。
鏈家網宋鑫:鏈家網數據挖掘技術實踐
最近,房地產行業炒的風生水起,很多人開始琢磨起買房子這件事,但是你了解這些房屋買賣交易平台嗎?鏈家網宋鑫主要分享了鏈家網為什麼要做估價、估價係統的現狀、估價係統總體設計、估價係統難點及解決方案等方麵。
提及整個估價係統的總體設計,宋鑫表示數據和特征決定了機器學習的上限,而模型和算法隻是逼近這個上限而已。估價係統的整體特征設計主要從交易特征、物理特征、市場供需特征三方麵進行考量。目前的估價係統還麵臨著交易數據的稀缺、稀疏和時變,以及物理特征和數據等難點,在算法選擇上,宋鑫表示,數據特點決定訓練算法!
分享最後,宋鑫表示領域知識至關重要,可以通過此彌補數據不足;在數據稀疏的情況下,很難用統計的方法去除異常點,特征平滑能夠緩解髒數據帶來的影響;機器學習模型強依賴數據,數據稀疏時,可能學習到違反常識的“知識”!需要領域知識進行修正;數據稀缺,特征之間的差異性大,交叉關係複雜時,模型複雜度可控性是關鍵,Tree Ensemble算法是首選!
微軟劉士君:微軟人工智能平台Azure Machine Learning
劉士君從機器學習的意義出發,對機器學習的優勢進行了介紹,比如針對海量數據;很多問題無法通過顯性指令集解決,但機器學習可以解決;效率幾何倍數提高;自我學習、不斷提高。微軟針對機器學習也推出了自己的產品——Azure Machine Learning Studio,簡單地說,Azure Machine Learning是一個通過PaaS平台快速構建機器學習算法供開發者使用的解決方案。其有很多不錯的特點:通過瀏覽器訪問,通過可視化的模塊E2E支持數據流,提供多種ML算法和模型庫,支持R和Python擴展,支持Web API快速部署和伸縮,隻需要完成算法,不需要部署環境,具有分類、回歸等模塊。如果廣大開發者感興趣,可自行體驗具體效果!
雖發力點不同,但不難看出百度、蘇寧、鏈家與微軟在人工智能上都已經開始布局了,未來或許我們可以看到人工智能應用於更多領域,給我們帶來更多驚喜。