時間:2017-09-09 來源:互聯網 瀏覽量:
李林 編譯整理
量子位 出品 | 公眾號 QbitAI
微軟聯合創始人保羅·艾倫建立的艾倫人工智能研究院(AI2)今天發布了一個PyTorch上的開源自然語言處理(NLP)研究庫:AllenNLP。
這個庫提供靈活的數據API,能實現智能的batching和padding,對文本處理中的常見操作進行高層抽象,還提供了一個模塊化、可擴展的實驗框架。
AllenNLP包含3個模型:機器理解、語義角色標注和文本蘊含。
其中,機器閱讀理解(MC)模型能夠從一段文本中選擇一段,來回答自然語言問題。AllenNLP中的MC模型是Seo et al, 2017論文提出的BiDAF(雙向注意流)的實現。AllenNLP的BiDAF模型在SQuAD數據集上測試的EM成績是68.7,略好於原始BiDAF模型的67.7分,訓練速度也是原來的10倍。
語義角色標注(SRL)模型能從一個句子中還原出它的潛在謂詞參數結構,還能為回答“誰”對“誰”做了“什麼”這類關於句子含義的基本問題而建立表示。AllenNLP的SRL模型是He et al, 2017論文提出的deep BiLSTM的實現,性能與原文的模型相當,在CoNLL 2012上的F1得分為78.9。
當處理一對句子的時候,文本蘊含(TE)模型能預測第一個句子中的事實是否隱含了第二個句子中的事實。AllenNLP的TE模型是Parikh et al, 2017論文中可分解注意模型的實現,在SNLI數據集上達到了84.7的準確率,接近原始模型86.3%的成績。
AllenNLP由AI2與華盛頓大學等高校的研究者合作開發和維護。
關於這個庫的更多信息,以及文中提到的3個模型,見以下鏈接:
AllenNLP主頁:http://allennlp.org/
論文:http://allennlp.org/papers/AllenNLP_white_paper.pdf
GitHub地址:https://github.com/allenai/allennlp
Demo:http://demo.allennlp.org/
安裝指南:http://allennlp.org/tutorials/installation
機器閱讀理解模型 - BiDAF (Seo et al, 2017):
https://www.semanticscholar.org/paper/Bidirectional-Attention-Flow-for-Machine-Comprehen-Seo-Kembhavi/007ab5528b3bd310a80d553cccad4b78dc496b02
語義角色標注模型 - deep BiLSTM model (He et al, 2017):
https://homes.cs.washington.edu/~luheng/files/acl2017_hllz.pdf
文本蘊含模型 - 可分解注意模型(Parikh et al, 2017):
https://www.semanticscholar.org/paper/A-Decomposable-Attention-Model-for-Natural-Languag-Parikh-T%C3%A4ckstr%C3%B6m/07a9478e87a8304fc3267fa16e83e9f3bbd98b27
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界麵,回複“招聘”兩個字。
量子位 QbitAI
վ'ᴗ' ի 追蹤AI技術和產品新動態