當前位置：係統粉 > IT資訊 > 業界資訊 > 知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題

知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題

時間：2018-06-24 來源：互聯網瀏覽量：

截止到今年三月底，知乎已經有1.4億注冊用戶，我們全平台的日活躍用戶超過3400萬，用戶在知乎上累計提出2300萬個問題，並收獲了接近1億的回答。在用戶和內容呈現雙爆發式增長時，因此如何規範社區內容成了一個難題，也就是在此背景下，知乎推出了“瓦力機器人”。

知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題(2)
知乎“陰陽怪氣”展

6月23-24日，知乎在798舉辦了一場“陰陽怪氣”主題書法展，現場不僅有陰陽怪氣粉碎機、“瓦力”實驗室等精彩互動，知乎社區治理團隊也首次亮相，分享了知乎在識別“陰陽怪氣”類內容上的探索。

據了解，知乎還將在近期對該技術進行產品化嚐試，向用戶提供“瓦力”陰陽怪氣智能過濾選項，同時，還將對“瓦力”進行更多訓練，不斷提升準確率和召回率，最終將陰陽怪氣識別技術全麵應用到社區治理中。

三大算法模型引領，突圍複雜網絡語言分析困境

目前，知乎借助AI技術，並輔以人機結合和多元的產品舉措，多重手段加強對社區氛圍的維護。現階段，知乎已實現對95%以上的違法違規、廣告導流和不友善等內容的主動打擊、覆蓋和篩查。

知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題(3)
知乎運營總監孫達雲

知乎運營總監孫達雲表示，過去一年，知乎全力探索對陰陽怪氣類評論的解決方案。陰陽怪氣可用“杠精”這個詞來指代，通常以“不針對發言內容，而是批評對方的語氣”以及“提出反對意見，但不給或給出極少數論據支持”這兩類常見言論為代表，此類評論極大了傷害創作者和交流者的體驗，但難以解決。

解決陰陽怪氣類評論的難點核心主要在於網絡語言的複雜性，情感分析不同於普通文本分析，例如經典的“嗬嗬”，由於雙方不同關係、說話的不同場景和時間都會帶來迥然不同的表意。即便是人工判定都存在標準化難度，算法模型的訓練挑戰就更為艱辛。

知乎團隊的不懈努力下，針對陰陽怪氣評論通常表達負麵情感的特點，知乎構建了內容情感傾向性識別的算法模型和識別用戶親密度的模型，並通過訓練不斷迭代完善。此外，針對陰陽怪氣評論的典型特征，知乎建立了文本識別模型不斷標記訓練樣本。三大模型的結合，不僅擺脫單一算法模型的局限性，也讓“瓦力”的陰陽怪氣識別準確率超過了大多數人工判斷。

持續迭代技術方案攻克情感分析前沿難題

知乎內容質量管理團隊技術負責人劉兆來則詳細介紹了“瓦力”最新的陰陽怪氣技術方案：首先通過知乎社區裏的舉報、反對等負向用戶行為收集訓練數據。然後通過各種同義替換、規則模版方式對訓練數據進行擴展，以緩解訓練數據稀疏的問題。同時，“瓦力”提取文本、句法、表情符等特征，並利用一個帶attention的CNN和LSTM的融合模型進行分類，最終判斷出內容是否為陰陽怪氣。

知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題(4)
知乎內容質量管理團隊技術負責人劉兆來

優化技術方案後，“瓦力”已能實現對“暗藏玄機誇獎”（忍不住關注答主了，你的答案很有水平！你博士快畢業了吧！）、“好為人師”（我覺得你挺慘，雖然長這麼大了，還真應該回小學改造）、“強行反駁”（你開心就好、請開始你的表演）等數類陰陽怪氣內容的識別。而根據知乎社區治理團隊的調查，用戶最反感的陰陽怪氣言論大多屬於這些類型，這意味著，“瓦力”在處理網絡言語暴力上取得了階段性進展。

劉兆來表示，未來將不斷優化“瓦力”的識別能力，提高模型泛化能力，同時不斷迭代更新模型，緊跟學術前沿的同時，適應網絡語言的變化潮流。

知乎優化“瓦力”AI算法挑戰“陰陽怪氣”難題(5)
“瓦力”識別陰陽怪氣技術方案

價值觀為核算法驅動構建風清氣正網絡空間

互聯網的廣泛應用，大幅降低了大眾發言討論的門檻，也導致了輿論環境的“亂象叢生”。知乎通過陰陽怪氣評論的治理，找到了一條優化互聯網社交禮儀的創新之路。對於飽受網絡暴力困擾的用戶而言，陰陽怪氣識別技術能夠讓用戶更舒適地參與網絡討論；而從行業角度看，目前在社區治理方麵AI技術投入位列行業第一的知乎，這一技術創新也極具開創性與示範效應。

知乎著力陰陽怪氣識別技術，正是知乎“認真、專業、友善”社區精神的一次直觀體現和有力踐行。日益強大的“瓦力”已能實時解決答非所問、辱罵、貼標簽等不友善問題，而人機結合的社區治理方式，以及用戶深度參與社區自治，更讓歧視、謠言八卦、愚昧偏見等內容在知乎難以找到立足之地。

http://news.zol.com.cn/692/6920474.html news.zol.com.cn true 中關村在線 http://news.zol.com.cn/692/6920474.html report 3547 截止到今年三月底，知乎已經有1.4億注冊用戶，我們全平台的日活躍用戶超過3400萬，用戶在知乎上累計提出2300萬個問題，並收獲了接近1億的回答。在用戶和內容呈現雙爆發式增長時，因此如何規範社區內容成了一個難題，也就是在此背景下，知乎推...

我要分享：

上一篇：Microsoft Store引入心願清單功能遠程安裝特性將至 下一篇：阿裏釘釘發布“新工作方式”：新校招推動就業公平