時間:2017-12-04 來源:互聯網 瀏覽量:
科技高速發展的社會,人與人之間的交流越來越密切,隨之帶來了龐大的數據量,然而對於多維度用戶而言,在訓練個性化模型的過程中,數據依然很少,那麼,如何解決數據稀疏問題,挖掘出更多可用數據?如何將數據高效運用於互聯網產品的主要承載形式——推薦係統?帶著諸多問題,我們采訪了微軟亞洲研究院(MSRA)資深研究員謝幸博士,一起聊聊異構數據與推薦係統的那些事兒。
謝幸博士,微軟亞洲研究院社會計算組資深研究員,並任中國科技大學兼職博士生導師。他分別於1996年和2001年在中國科技大學獲得計算機軟件專業學士和博士學位, 2001年7月加入微軟亞洲研究院。他在國際會議和學術期刊上發表了200餘篇學術論文,擁有50餘項專利,是ACM、IEEE高級會員和計算機學會傑出會員。
12月7日-9日,中國大數據技術大會(BDTC 2017)將於北京新雲南皇冠假日酒店舉行,謝幸博士作為“推薦係統論壇”演講嘉賓,將分享題為《結合跨平台異構數據的推薦係統》的演講,歡迎與會者現場參與討論。
個人發展與團隊研究
CSDN:請談談您及團隊在現階段的研究側重點或下一步研究和實踐(例如應用到哪些領域)計劃?
謝幸:我們研究數據挖掘的子課題:用戶畫像和推薦係統,關注“怎樣用數據來刻畫一個人”,利用用戶產生的數據反過來更深入地了解用戶。推薦係統是比較常見的應用,有很大的商業前景,它可以看作用戶畫像的一個重要應用,用戶畫像的用途很廣,可以用於個體和群體數據建模、個性化或預測等。
現階段研究重點主要為深度學習與推薦係統的結合。深度學習在計算機視覺、語音、自然語言處理都有很好的應用,在推薦係統裏的應用也是最近幾年的研究熱點,我們關注怎麼將這方麵的應用落地——與微軟重要的產品、項目和工程結合,這對於係統和產品設計都有一定要求。另外,我們也關注知識圖譜與推薦係統的結合,並將研究成果真正應用到提高推薦性能上,比如微軟的廣告係統、新聞搜索,以及小冰、小娜這些個性化產品。
成為MSRA研究員的必備特質
CSDN:您是微軟亞洲研究院資深研究員,您希望看到新加入的研究員們具有什麼樣的特質?
謝幸:新加入的研究員在具備學者精神的同時,團隊合作和交流表達也是必備特性。對於做研究,交流能力是比較重要的,尤其是現在,需要將個人研究成果對外介紹,去與別人合作,以及去推廣自己研究的項目。MSRA研究員在這方麵的能力相比普通工程師強很多。除了這些軟實力,研究員需要熱愛技術和創新,不熱愛技術,就不會想把事情做深。此外,過去偏學術理論的研究環境,對研究員的動手能力要求並不是特別高,但現在麵對龐大數據以及項目,都要求研究員能夠動手實現,所以動手和係統開發也是研究員必不可少的能力。
CSDN:您也是中國科技大學兼職博士生導師,您在教學過程中更看重什麼環節?人才培養方麵,您認為即將畢業的學生在基礎研究和實踐應用(與市場結合),哪方麵更為重要?
謝幸:我在中國科技大學並不授課,博士生在學校學習課程,而在項目研究階段,他們來到微軟,由我指導完成比較係統的研究項目以及論文。“基礎研究”和“實踐應用”對於即將畢業的學生都很重要。學校不會發布或維護任何產品,做得更多的是基礎研究。在微軟,我們更強調學生參與產品項目。一方麵,要達到博士的水平需要做很多技術研究,比如論文至少要有三個以上的創新工作,這些工作如果完全沒有技術研究作基礎,不可能做到;另一方麵,我們也要求能夠把這些研究成果應用到微軟的產品裏,不僅如此,這些研究需要成係統,對領域有深度的掌握。
CSDN:根據您的體會,哪些習慣對於研究與解決問題很有幫助?
謝幸:帶著興趣去探索“為什麼”,這樣對於研究是很有幫助的。有些人在很多事情上喜歡探究“為什麼”,有時會問得深一點,比如通過用搜索引擎去查看背後的原因,很多時候,這種極客的方式都是靠興趣驅動,如果隻追求“差不多”,就不能探究很深。
異構數據在推薦係統的應用
CSDN:在演講主題之外,請談談您目前還關注哪些技術與研究,為什麼對這些話題感興趣?
謝幸:我們在做數據挖掘的同時,也關注其它非計算機領域的學科,比如心理學、社會學、腦科學,我們本質上是對用戶或者人進行研究。心理學研究人類心理現象,社會學是研究人類群體和社會行為還有腦科學研究人類大腦。這些與數據挖掘是可以相結合的,心理學裏有一個方向是人格心理學,我了解以後覺得很有意思,可以用計算機做這件事情,後來我們與心理學結合完成了人格推測模型。我們也和社會學領域的教授合作,腦科學也是最近比較受關注的,深度學習的很多方麵都受到了腦科學的啟發,微軟與中科大有些聯合研究項目,就與跟腦科學有關。
CSDN:在您的研究領域之中,最希望哪些技術能取得突破,為什麼?或者在更長遠的未來,您希望未來的研究者們能集中精力解決哪些問題,或實現哪些目標?
謝幸:除了知識圖譜和深度學習,我最近對“可解釋”較為感興趣,很多人在講可解釋機器學習,“可解釋”對推薦係統也很重要,比如用戶在看到推薦內容時,可能在想,為什麼你會把它推薦給我?有時推薦係統背後的算法比較複雜,用戶並不知道推薦內容是如何出來的,如果我們能與他解釋,一方麵讓用戶覺得比較透明,另一方麵用戶會更傾向去看你推薦的這些東西,講道理是一種說服的過程,所以我們最近也在做可解釋推薦,並與心理學相結合。
CSDN:異構數據在推薦係統中扮演著怎樣的角色?它能給推薦係統帶來哪些優勢?有哪些創新之處?
謝幸:用戶數據稀疏是任何推薦係統或者用戶畫像都麵臨的問題,無論現在怎樣談論大數據,但對用戶來說維度太多,數據相對而言還是很少,為了解決數據稀疏的問題,我們發掘還有哪些數據可用,異構數據實際上是在解決這個問題,挖掘其他的數據幫助推薦,比如用戶曾發表的文字、圖片、社交關係等就是異構的,其類型結構都不一樣,對算法也會帶來挑戰。
異構數據在推薦係統中所扮演的角色是怎樣解決數據稀疏的問題,當我們有了額外數據以後,推薦性能相應會提高,但如何結合這些異構數據,用什麼方法,這就需要創新了,在這次演講中,我會介紹相關的研究應用。
CSDN:“跨平台異構數據”可以解決哪些現有係統所不能解決的難題?未來這一技術還將有怎樣的發展和應用前景?
謝幸:知識圖譜裏麵包含了異構數據,將知識圖譜的數據結合到推薦係統中,能建立比較豐富的用戶表示和商品表示,本次演講我會介紹跨平台數據如何結合,如何充分利用來自不同平台的數據。跨平台異構數據除了用於推薦也可做預測,用於其他個性化甚至在對話係統,總的來說就是怎麼樣去表達一些異構的或者跨平台不同來源的數據,這個表示的問題是相對在別的地方,其他很多場景可以通用的。關於跨平台異構數據這項技術,我們目前主要圍繞推薦係統來做,應用於個性化的信息的瀏覽。
CSDN:此前您提出了“人格推測模型”,利用社交媒體上的異構數據來預測人格,在模型訓練過程中,遇到了哪些困難?如何突破?
謝幸:難點是數據采集,要采集大規模的用戶數據並不容易,當時我們想了一些辦法,一方麵通過微軟小冰收集誌願者的數據,另外也自己標注了一組數據,有了這些數據,在訓練模型的過程中,更多是設計模型來把這些異構數據用好,我們采用了較為通用的集成學習來搭建“人格推測模型”,針對不同數據設計不同特征,也結合了一些心理學的理論和詞典來幫助建立特征。
CSDN:您在BDTC推薦論壇的報告,側重點將放在哪些問題上,旨在解開哪些疑惑,希望觀眾從中收獲什麼啟示?
謝幸:我將通過我們的研究項目來告訴大家怎樣開展這方麵的研究,也許聽眾未必直接使用這種算法,但對於同樣類型的研究能帶來一些啟示。跨平台和異構實際上是兩個點,我將圍繞如何收集跨平台的異構數據來做推薦,以及如何設計這個模型來做介紹。