時間:2017-08-23 來源:互聯網 瀏覽量:
微軟清華最近聯合發布了學術圖譜Open Academic Graph (OAG)。這個億級圖譜集成了目前最具規模與影響力的微軟學術圖譜(Microsoft Academic Graph, MAG)和清華大學的AMiner學術圖譜。具體來說包含了MAG中1.66億學術論文和AMiner中1.55億論文的元數據信息。經過集成這些數據信息,生成了兩個學術圖譜之間近6千5百萬鏈接(匹配)關係。
構建億級開放學術圖譜是一項極具挑戰的研究工作,因為學術數據在不同圖譜中呈現分布異構的特點,同名異義和異名同義問題嚴重,實現數據的精準匹配是一個重要挑戰。下麵舉例說明這幾個問題的難點所在。
數據異構。由於數據分布在不同數據源,可能麵臨數據異構的問題。比如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,論文所發表的期刊或會議有全稱或縮寫等多種形式。
同名消歧問題。同一名字可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年,中國重名最多的30 個姓名中,每個姓名重名人次達到20 萬以上。對於論文來說,不同論文也可能有相同的題目,如:Data, data everywhere 在數據庫中可對應多篇文章。
此外,要實現億級數據集成,如何進行高效計算是另一個重要挑戰。以AMiner為例,已經公布的論文數據就有1.55億,而微軟學術圖譜的公開數據也達1.6億,計算兩個圖譜匹配關係的算法複雜度一般來說是O(n2),這需要大量計算。我們設計了一個折衷方法,在既考慮精度的情況下,也利用哈希算法提高算法效率,將算法複雜度降低到O(nlogn)到O(n2)之間,目前每天能夠完成約2千萬篇論文的匹配,基本完成了合計3億篇論文的自動匹配,並保證了高匹配精度。
開放學術圖譜是開放學術組織(Open Academic Society)的一個重要項目。開放學術組織是微軟、清華、艾倫人工智能研究所、亞利桑那大學、華盛頓大學、加州洛杉磯大學、澳洲國立大學等20個全球機構一起聯合成立的學術組織,旨在推廣學術數據的開放共享、加強學術交流與合作。開放學術圖譜以集成全球不同學術知識圖譜、公開共享學術圖譜數據、提供相關學術搜索與挖掘服務為目標。具體包括:
集成豐富的學術知識數據。目前開放學術圖譜的核心數據來自微軟學術圖譜(MAG)和AMiner學術圖譜,下一步將集成更多其他學術圖譜數據,包括擴充不同類型實體(如作者、論文等)的語義數據。通過數據集成和數據挖掘算法[3]將鏈接更多實體更精準和豐富的“畫像”數據,包括論文的元數據、概念網絡、研究領域、全文等和作者的基本信息(如:職位、單位、聯係信息、國別、性別等)、研究興趣以及論文列表等。
數據共享。通過共享不同的學術知識圖譜,以及它們的鏈接關係,我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時,歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。
服務共享。我們希望設計更加智能的學術圖譜連接係統,並提供相關的服務(如API),以方便更多人使用服務以及加入開放學術社區。
未來,我們將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公布更多學術圖譜連接數據(如作者連接數據),設計更加智能的學術圖譜連接係統並提供相應的服務。