當前位置：係統粉 > IT資訊 > 業界資訊 > ACL 2017論文研討會：聚焦自然語言處理領域的新技術

ACL 2017論文研討會：聚焦自然語言處理領域的新技術

時間：2017-07-28 來源：互聯網瀏覽量：

就在上周，微軟亞洲研究院舉辦了“ACL 2017論文研討會”，旨在促進自然語言處理相關研究者之間的交流，探討自然語言處理領域的新技術。微軟亞洲研究院已被ACL2017大會錄用論文的作者在研討會上分別就各自的論文內容進行了分享。微軟亞洲研究院副院長、ACL候任主席周明及約40位相關領域的微軟員工和實習生參加了此次活動，就分享論文的問題、算法、實驗等方麵進行了深入的交流、討論。

ACL大會（Annual Meeting of the Association for ComputationalLinguistics）是自然語言處理領域的頂級國際會議，被中國計算機學會推薦國際學術會議列表認定為A類國際會議，會議內容涵蓋語言分析、機器翻譯、信息抽取、自動問答等眾多研究領域。長期以來，微軟研究院在ACL長文論文的發表總數位居世界第一。

今年的第 55 屆ACL大會將於本周末（7月30 日至8月4 日）在加拿大溫哥華舉行。本屆會議共收到1419篇投稿（包括829篇長文和590篇短文），錄用長文195篇、短文149篇，長文錄用率為23.5%。其中，微軟亞洲研究院共有6篇長文，及一篇題為 “SuperAgent: A Customer Service Chatbot for E-commerce Websites” 的demo文章發表。

較高的投稿量反映了自然語言處理領域在人工智能浪潮下的火熱。據統計，在被錄用的長文論文中，有79篇論文的第一作者為華人，約占被錄用長文總數的40%，充分表明了華人的自然語言處理研究走在了世界的前沿，並在不斷地向前進步。

在ACL 2017大會即將拉開序幕的前夕，我們先提前為各位小夥伴們熱熱身，向大家介紹一下此次“ACL2017論文研討會”所分享論文的亮點。更多詳細內容，趕緊戳文中下載鏈接學起來！

論文

題目

Chunk-based Decoder for Neural Machine Translation 作者Shonosuke Ishiwatari, Jingtao Yao, Shujie Liu, Mu Li, Ming Zhou, Naoki Yoshinaga, Masaru Kitsuregawa, Weijia Jia彙報人劉樹傑

論文

摘要

在機器翻譯中使用組塊信息能夠更容易的對組塊內的詞語和組塊與組塊之間的關係進行建模，因此在統計機器翻譯中得到了廣泛的使用。該論文的科研人員將組塊的信息應用到神經機器翻譯中，從而更容易的解決了遠距離的依賴問題。他們提出的基於組塊的神經機器翻譯模型，包含了一個組塊級別的解碼器和詞級別的解碼器。組塊級別的解碼器負責對全局（組塊間）的依賴進行建模，而詞級別的解碼器則對局部（組塊內）的依賴進行建模。在英日翻譯任務（WAT’16）上的實驗顯示，基於組塊的神經機器翻譯解碼算法能夠顯著的提高翻譯性能。 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(2)

彙報人：劉樹傑

論文

題目

Sequence-to-Dependency Neural Machine Translation作者Shuangzhi Wu, Dongdong Zhang, Nan Yang, Mu Li,Ming Zhou彙報人吳雙誌

論文

摘要

現有的神經網絡機器翻譯係統大多以序列的形式生成目標語言，忽略了目標語言的句法知識。通常來說，句法知識對句子的構成有重要的指導作用。受目標語言句法知識在短語翻譯模型中成功應用的啟發，本文提出了一種序列到依存的神經網絡機器翻譯模型。該模型能夠在翻譯源語言的同時生成目標語言的依存句法結構，進一步利用已有的句法結構指導後續翻譯的生成，從而做到翻譯的同時兼顧語法結構。實驗表明本文提出的方法的性能在中英翻譯和日英翻譯任務上都高於傳統神經網絡機器翻譯。 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(3)

彙報人：吳雙誌

論文

題目

Active Sentiment Domain Adaptation作者Fangzhao Wu, Yongfeng Huang, Jun Yan彙報人吳方照

論文

摘要

情感分類是一個領域依賴的任務。不同的領域擁有不同的情感表達，因此一個領域訓練得到的情感分類器在另一個領域往往效果不佳。由於網絡文本涉及大量的領域，因此很難為每一個領域去標注足夠多的樣本來訓練領域特定情感分類器。為此，該論文的研究人員提出了一個主動情感領域遷移的方法來解決該問題。他們的方法嚐試基於主動學習策略選取少量有信息量的目標領域的有標注樣本，從目標領域大量的無標注樣本中挖掘詞語間的領域特定情感關係，並通過結合以上兩種信息將情感詞典中的通用情感信息遷移到目標領域。在基準數據集上的實驗表明，該方法能夠在少量有標注樣本的情況下為目標領域訓練準確的情感分類器。 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(4)

彙報人：吳方照

論文

題目

Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-based Chatbots作者Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li彙報人武威

論文

摘要

聊天機器人的一個很重要的問題是如何在選擇回複的時候考慮上下文。聊天上下文往往呈現層次結構並且有很多冗餘信息，因此如何同時對聊天上下文的結構建模並且準確把握上下文中的要點成為了能否找到合適回複的關鍵。在這篇文章中，研究員們提出了一個序列匹配網。該網絡通過二維卷積神經網和循環神經網的耦合可以很好地對上下文建模並且抓住上下文中的關鍵點。在大規模標準數據集上，該模型對已有模型有非常大的提升，並且有很好的解釋性。另外，為了彌補學術界大規模標注數據的缺失，該文章還貢獻出了一個標注數據集。鏈接
https://arxiv.org/abs/1612.01627 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(5)

彙報人：武威

論文

題目

Selective Encoding for Abstractive Sentence Summarization作者Qingyu Zhou, Nan Yang, Furu Wei, Ming Zhou彙報人周青宇

論文

摘要

句子摘要任務的目標是產生一個句子的簡短概括。該論文的研究人員提出了選擇性編碼模型以改善生成式句子摘要的性能。他們的模型包含了一個句子編碼器、選擇門網絡和帶注意力機製的解碼器。其中，句子編碼器和解碼器采用了循環神經網絡。選擇門網絡通過控製從編碼器到解碼器的信息流來構建額外的一層信息表示，該層表示為句子摘要構建了量身定做的語義表示。研究人員在英文Gigaword、DUC 2004和MSR三個生成式句子摘要數據集上進行了測試。實驗結果表明本文提出的選擇性編碼模型性能比當前最優基線模型有顯著提高。鏈接
https://arxiv.org/abs/1704.07073 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(6)

彙報人：周青宇

論文

題目

Gated Self-Matching Networks for Reading Comprehension and Question Answering作者Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang,Ming Zhou彙報人楊南

論文

摘要

本文提出了一種針對機器閱讀理解和問答任務的端到端的多層神經網絡，模型主要由四部分組成。首先通過多層的雙向循環神經網絡得到問題和篇章的語義向量表示。第二步通過Attention機製和Gate機製學習文章和問題詞彙級的匹配，從而得到篇章中每個詞和問題的對齊及其重要程度。第三步通過Self-Matching機製，對答案所需要的篇章中的證據和問題信息進行進一步聚合，得到最終的篇章中每個詞的語義向量表示。最後使用Pointer Networks得到答案在篇章中的起始位置和結束位置，進而得到問題的最終答案。在Stanford發布的機器閱讀理解比賽數據集SQuAD上，本文提出的模型（R-Net）的單模型和集成模型結果都分別排名第一。鏈接
https://www.microsoft.com/en-us/research/publication/mrc/

彙報人：楊南

論文

題目

Adversarial Training for Unsupervised Bilingual Lexicon Induction作者Meng Zhang, Yang Liu, Huanbo Luan, Maosong Sun彙報人張檬

論文

摘要

本論文提出了利用對抗學習從非平行文本自動構建雙語詞典，利用向量空間映射發現雙語之間的關聯性，克服了傳統方法依賴於種子詞典的缺點，實現了完全不依賴雙語信息、僅利用單語文本構建雙語詞典的任務，顯著提升了機器翻譯處理低資源語言的能力。鏈接
http://nlp.csai.tsinghua.edu.cn/~ly/papers/acl2017_zm.pdf ACL 2017論文研討會：聚焦自然語言處理領域的新技術(7)

彙報人：張檬

論文

題目

Adversarial Multi-Criteria Learning for Chinese Word Segmentation作者Xinchi Chen, Zhan Shi, Xipeng Qiu, XuanjingHuang彙報人陳新馳

論文

摘要

不同的語言視角往往導致許多不同細分標準的中文分詞語料。大多數現有的方法側重於改進使用單個標準的語料下的分詞性能。如果能利用不同標準的語料來提升分詞的效果是很有意義的。在這篇文章中，科研人員使用對抗訓練的思想，通過多目標集成學習的方法來學習多個異構標準的分詞語料集。在8種不同標準的語料庫上的實驗表明，相比較於單標準學習方法，模型在每個語料集上的性能都獲得了顯著改進。鏈接
https://arxiv.org/abs/1704.07556 ACL 2017論文研討會：聚焦自然語言處理領域的新技術(8)

彙報人：陳新馳

除了以上活動中分享的精彩長文，在本屆ACL 2017大會上，微軟（亞洲）互聯網工程院也有一篇長文發表，題目為“A Nested Attention Neural Hybrid Model for Grammatical Error Correction”。讓我們一起拭目以待本屆ACL大會上更多研究成果的發表吧！

你也許還想看：

，共建交流平台。來稿請寄：msraai@microsoft.com。

ACL 2017論文研討會：聚焦自然語言處理領域的新技術(9) 微軟小冰進駐微軟研究院微信啦！快去主頁和她聊聊天吧。