當前位置:係統粉 >   IT資訊 >   微軟資訊 >  華人力量無處不在, 微軟在發展中尋求突破 | KDD 2017

華人力量無處不在, 微軟在發展中尋求突破 | KDD 2017

時間:2017-08-30 來源:互聯網 瀏覽量:

華人力量無處不在, 微軟在發展中尋求突破

AI科技評論:本文轉載自“微軟研究院AI頭條”,作者鮑捷,AI科技評論根據原文做了不改動原意的修改和編輯。

SIGKDD是ACM在數據挖掘領域的頂級學術會議,每年都吸引著超過2000位來自世界各地的頂級數據挖掘學者,以及知名企業代表前來參加。然而,大會的論文接收每年卻僅約200篇,接收率不超過20%。

今年的KDD大會剛剛於加拿大新斯科舍省的首府哈利法克斯(Halifax)落下帷幕。在KDD 20餘年的曆史中,越來越多的的華人元素體現在了會議當中。從參與度到科研成就,從影響力到活動組織,華人的力量無處不在且無可替代。作為人工智能和數據挖掘領域的先驅者,微軟同樣在KDD 2017中表現突出,並在發展中不斷尋求新的突破。

厚積薄發的華人力量

無論是從參與KDD會議的人數、論文發表數、論文影響力,還是從獲獎情況、參與活動組織和參展情況等多個方麵來看,厚積薄發的華人力量正在強勢崛起,在KDD領域擁有世界有目共睹的優異表現。

越來越多的華人參與到了SIGKDD當中。KDD 2017的注冊總人數達到了1656人,是在美國以外舉行的KDD會議中參與人數最多的一次,其中華人注冊參會的人數僅次於美國。但今年KDD的兩個track的錄取率卻分別隻有17%(Research Track)和21%(Applied Data Science Track),且僅有一半的論文被選為進行口頭展示(oral presentation)。

據統計,今年大會的兩個研究熱點分別是時序數據和圖算法。大部分的委員會成員以及提交的論文來自美國和中國。其中中國作者貢獻了超過13%的論文。

在華人參與度持續上升的同時,華人作者的研究工作也越來越有影響力。微軟學術搜索總結了最近5年KDD最具影響力的作者(如下圖所示),圖中泡泡的大小表明了最近五年所發表KDD的論文數,橫軸表明了作者總體在數據挖掘領域的聲望排名,越靠右的排名越高。該排名不僅參考了KDD發表文章的引用次數,還參考了作者之間互相引用的情況。如果一篇文章被高聲望的作者引用,那麼此文章的質量可能更好。縱軸則表明了作者在KDD的威望排名,該排名主要參考了每篇KDD論文標準化後的被引用數量,位置越高排名就越高。

華人力量無處不在, 微軟在發展中尋求突破

圖上的21位學者可以認為是目前在數據挖掘領域最有影響力的代表人物,可以看到華人學者占據了超過半數的位置(13人),且不少都占據了非常有影響力的位置,例如微軟亞洲研究院的鄭宇博士和謝幸博士。

今年的大會中,不少獎項也都由華人包攬。KDD 2017傑出服務獎(Service Award)授予給了香港科技大學的楊強教授,以表彰他在數據挖掘和人工智能領域非凡的服務和貢獻。同時,還特別提到了楊強教授在中國成立的SIGKDD China,以及多年來在中國推動數據挖掘、機器學習和人工智能研究的作用。

華人力量無處不在, 微軟在發展中尋求突破

KDD 2017創新獎(Innovation Award)則頒發給了加拿大西蒙弗雷澤大學的裴健教授,認可了他在frequent pattern mining領域做出的傑出貢獻。裴健教授在他的talk裏麵回顧了當年frequent pattern mining研究的PrefixSpan和FPGrowth,並且展望了未來pattern mining和深度學習以及神經網絡進行結合的發展前景。

此外,本屆KDD Cup數據挖掘比賽共有3582支隊伍參與,覆蓋全球50個國家,730所高校,比賽規模史上最大,來自中國的隊伍包攬了全部獎項。此次比賽分兩個任務:預測車輛從路口到收費站的平均用時和高速收費站車流量預測。其中,由微軟、美團、北京航空航天大學組成的Convolution團隊將兩項任務的第一名都收入囊中,AI科技評論也對此團隊做過詳細的報道和采訪,詳情請參看《KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團隊討教了他們的“成功方法論”》。

華人還在KDD 2017中組織了高品質的活動。在今年的大會上,UCBerkeley的鬱彬教授發表了主題演講,討論了數據的三個最重要的原則:可預測性,穩定性和可計算性。因此,鬱彬教授成為了在數據挖掘領域頂級會議中第一位女性的大會主題講者。

華人學者們還組織了包括城市計算(Urban Computing)、大規模網絡表達學習(Learning Representations of Large Scale Networks)在內的7個專題講座。KDD 2017的首日下午,大會特別為SIGKDD China舉行了中國數據挖掘會議(Data Science @China),吸引了眾多聽眾參與。會議在KDD China秘書長、微軟亞洲研究院資深研究員鄭宇博士的主持下進行。香港科技大學的楊強教授,羅格斯大學的熊輝教授,微軟亞洲研究院的鄭宇博士,今日頭條AI實驗室的李磊博士,滴滴出行研究院的副院長葉傑平博士,西蒙弗雷澤大學的裴健教授,以及清華大學的唐傑和崔鵬教授分別分享了各自最新的研究成果。

華人力量無處不在, 微軟在發展中尋求突破

中國企業在KDD的參與也越來越積極。據主辦方介紹,KDD 2017總共的讚助費用超過了54萬美元,僅次於去年在舊金山舉行的KDD 2016。仔細看一看今年的讚助商列表,就會發現中國公司已經出現在了顯著的位置(AI科技評論按:去年滴滴同樣是鑽石讚助商)。

華人力量無處不在, 微軟在發展中尋求突破

持續發酵的微軟影響力

作為人工智能和數據挖掘領域的先驅者,微軟在本次大會上一如既往地展示了非常多的研究成果。來自微軟的研究員們分別組織了五場不同主題的教程演講(Tutorials)以及一場實踐教程(Hands-on Tutorial),內容涵蓋了利用對照實驗(A/B testing)加速軟件創新,群體感知(crowd sourcing),大規模層次數據分類技術,社交網絡數據分析,城市計算,以及利用R語言的可擴展的數據科學技術等核心技術領域。其中,微軟亞洲研究院資深研究員鄭宇博士組織了城市計算的教程演講。

華人力量無處不在, 微軟在發展中尋求突破

今年,微軟參與發表了9篇KDD論文,涉及領域豐富全麵。在來自微軟雷德蒙研究院的工作“A Century of Science: Globalization of Scientific Collaborations, Citations and Innovations” 中,研究人員收集了從1900到2015年間所發表的8900萬篇已經數字化的學術論文,進而學習了過去一個世紀中科技進步的演化過程。

研究員們發現,科學的進步已經從個人的單獨工作越來越多地向共同合作的形式所轉變,並且能夠很明顯的觀察到,在作者合作和研究工作的互相引用中,越來越多的國際合作已經展現。但在上世紀初超過90%的創新工作都在英國和美國,而目前這樣的比例已經下降到了50%左右。微軟研究院的研究人員希望通過分析這些數據可以為業界提供一些啟示,讓現有的國際科技合作和資助計劃變得更有效率。

另外一篇來自微軟的論文“ReasoNet: Learning to Stop Reading in Machine Comprehension”則提出了一個利用新的數據網絡結構來教計算機閱讀和理解文章,並根據文章的內容回答相應的問題。

ReasoNet引入了一種結束狀態來緩解推理深度的限製,並且利用增強學習技術,當它能從已有的信息中產生正確的回答時,ReasoNets可以動態地決定是否需要繼續理解中間結果或者提前結束閱讀。這項技術在許多機器理解的數據庫(如 CNN, Daily Mail Stanford SQuAD和 structured Graph Reachability)驗證中,都得到了非常好的結果。

我們微軟亞洲研究院城市計算組在KDD 2017發表了一篇題目為“Planning Bike Lanes based on Sharing Bikes’ Trajectories” 的論文。該論文的基本思想是利用大量共享單車(摩拜)的軌跡數據,結合政府在市政建設上的限製和要求(如,預算、服務人群以及施工和管理的便捷性),利用大數據和人工智能技術提出自行車道規劃的建議。

這項技術未來將能夠實現公司、政府和人民群眾三贏的局麵,把技術更好地融入人們的現實生活中。具體細節請點擊閱讀《借力摩拜單車軌跡大數據,微軟亞洲研究院如何更好規劃自行車道?》。

除此之外,其他微軟在KDD 2017所發表的論文如下:

Discrete Content-aware Matrix Factorization

Mixture Factorized Ornstein-Uhlenbeck Processes for Time-Series Forecasting

Deep Embedding Forest: Forest-based Serving with Deep Embedding Features

A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments

Deep Probe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Network

Discovering Concepts Using Large Table Corpus

我要分享:

最新熱門遊戲

版權信息

Copyright @ 2011 係統粉 版權聲明 最新發布內容 網站導航