小米語音技術負責人王育軍：小米智能語音技術從0到1的實踐之路

發布時間：2020-03-25 瀏覽數：

從樂視到小米，一直在從事語音技術

2017 年以前，在各大媒體報道中很少提及小米語音技術，當時小米還沒有自己的語音技術團隊。因為業界有很多成功的語音技術合作夥伴，所以小米認為與他們的合作是理性的、性價比也很高。但其實小米早已經有了自己的雲、大數據和 AI 平台，業務數據的集中化管理也做得可圈可點。

正是在這樣的背景下，2017 年王育軍加入了小米人工智能部門，在人工智能實驗室語音組負責小米的語音識別、語音喚醒、聲紋識別和語音合成方麵的研發工作。在入職小米之前，王育軍曾就職於樂視，負責為樂視電視和手機提供遠近場語音識別、語音喚醒聲紋識別和語義解析等技術。對開發者來說，研發的延續性尤為重要，由於之前一直從事語音技術工作，而當時小米也有電視業務，因此對他來說加入小米在技術上算得上是無縫“平移”。

小米在智能語音上的應用實踐從 0 到 1：解決生存問題

小米的技術研發主要服務於產品，因此技術積累也緊跟產品發展趨勢。在小米語音技術的發展初期，團隊首先要考慮自身生存問題，所以必須盡快實現從 0 到 1 的突破。

小米的設備生態囊括了手機、電視、音箱、手表、耳機等，由於當時需要盡快完成從 0 到 1 的技術突破，所以團隊選擇了可以熱啟動的、有經驗的項目，比如小米電視。據王育軍稱，他入職第一個月，就看到了小米語音生態的優勢。隨後語音組用 4 個月時間開發了小米第一個語音識別係統，上線到小米電視，因為小米電視的用戶、產品形態已經非常成熟了。當初團隊還隻有 4 個人。他們將這段經曆戲稱為“444 歲月”，意思是 4 個人，經過 40 多次試驗，曆時 4 個月，不但上線了語音識別係統，還發表了自己基於端對端語音識別的論文。

據王育軍介紹，在發展初期，小米訓練語音技術使用的數據都是真實業務數據，而應用到的語音識別工具是 Kaldi。之所以選擇 Kaldi，是因為小米語音團隊剛開始隻有兩名正式員工和兩名實習生。要重新搭識別器，訓練模型都不現實。Kaldi 是大家公共的技術語言，這樣無論是開發還是招聘，上手成本都很低，並且直接遏製了打著“崇尚螺絲釘文化”旗號搞“技術自留地”的想法。

落地進入正軌，開始規劃新技術

隨著語音識別技術落地逐漸步入正軌，小米開始規劃語音喚醒、聲紋和語音合成技術。

經過幾年的發展，小米語音團隊從僅有 4 個人的“遊擊戰”轉入了正規軍“陣地戰”。步入正軌後就不能隻選擇熱項目了，必須把沒有數據、產品形態未知的冷項目也做好。這些冷項目“上線”後，小米麵臨著產品成本和性能的雙重挑戰。以小愛為例，小愛的用戶量一直在猛增，計算成本需要優化，每天各個渠道都會反饋 Badcase 。所以團隊要廣攬人才，同時思考如何把這些事情盡量地係統化解決。模型需要自動更新，在線計算資源、優化算法和本地化要均衡發展。

繁華落盡，恰逢人員流失

在 2018 年到 2019 年期間，kaldi 模型存在迭代機製不靈活、聲學語言不方便解耦的問題。算法離線化時，內存冗餘。當創業般的激情被繁瑣的工程細節和看似千篇一律的模型迭代消磨殆盡後，正逢所有團隊都必須麵臨的“兩年之癢。人員流失導致團隊無法再去逆行開發去解決過去遺留的問題，有限的人力不得不投入到新技術預研上。這是每個語音團隊必經之路，並非是小米語音團隊特有。從事語音技術的人都清楚，從 0 到 1 容易，但是從 1 到 1.1 就要付出比 0 到 1 多很多倍的人力和財力。

目前，小米的語音技術用已經應用在了小米手機、音箱、電視和其他 40 多品類的小米生態鏈設備中的語音識別、語音合成、語音喚醒和聲紋識別功能上。

在談到未來小米智能語音技術的發展規劃時，王育軍表示：

從技術角度看，所有語音的技術都會進入小紅利期。我們希望看到的局麵是語音識別隻需要一個模型就可以直接處理多通道語音信號，語言和聲學模型不再異構，推理過程變得越來越簡單有效。我們也希望看到語音合成可以由精雕細琢，變成規模化生產任何聲音。這些都是端到端技術要解決的問題。在今天全民端到端的時代，交互領域內的人工智能技術同質化越來越重，語音技術中前後左右的融合技術模塊，包括語音技術自己的上遊會逐漸交融。在短期內，語音技術和 NLP 可能會你中有我我中有你。搞清楚自己發展方向之前，首先需要開放地擁抱這些技術邊界的模糊化。

語言識別、語音合成的技術發展脈絡

智能語音技術是最早落地的人工智能技術，也是在 AI 產品中應用最為廣泛的一項技術。自從深度學習引入到智能語音領域後，這項技術才真正地從不溫不火變為炙手可熱。深度學習的引入使語音識別文字的準確率從 70% 多，提升到了近 90%。這些改變很大程度上得益於算法的改進以及模型的迭代。

在算法方麵，語音識別技術主要經曆了隱含馬爾科夫模型的引進，統計模型的應用，基於模板的技術複興嚐試以及深度學習。深度學習之後的一些演變，都是應用場景的變遷推動的，近場 -> 遠場 -> 多通道語音識別，在王育軍看來，這不完全屬於算法演變。在模型方麵，當下業界傾向於端到端語音識別模型，王育軍則認為這種模型與傳統識別模型隻是形式上有所不同，但初衷相同，他表示：

如今的深度學習技術正在從自然語言處理、圖像、計算機方向不斷地向語音技術滲透，技術遷移以天為單位。

語音合成麵臨的挑戰

任何一項技術發展到一定階段後都會迎來瓶頸期，語音技術也是如此。在語音合成方麵，當前麵臨的問題是把合成從藝術做成規模化產品：過去語音合成是用一位聲優，錄出盡量多的專業錄音數據，然後訓練聲學模型和聲碼器。目前研究者們需要時間來逐步論證數據采集、使用與標注的方法，使用戶可以聽見自己熟悉的聲音。甚至可以弱化合成和語音編碼，語音降噪的邊界。

語音識別技術難點

語音識別的難點從來都沒有變過，仍然是盡量使用戶可以“自由場景自由說”。場景中麵臨的挑戰是混響、競爭說話人、極低信噪比等。在說話方式上麵臨兒童發音不清楚、口音和方言多語言問題，這些挑戰會長期存在。各方都在呼喚一套可以“兼容”自由場景自由說的產品方案，拉近技術邊界和用戶預期。當然從算法的邏輯上講，無論是回歸問題還是分類問題，都會麵臨“未見”的情況，這是永恒的難點。

解決跨設備“自由場景自由說”是當務之急

目前，語音技術也被應用在了很多不同的端上，比如智能家居場景中的很多終端，在王育軍看來，語音技術是整個語音交互生態中的一環，要應用的智能家居中，語音生態的掌舵者，和其他環節要做的努力遠比提升語音技術本身要多。具體到語音技術，我們麵臨的問題還是要解決跨設備“自由場景自由說”。舉例來說，如果家居設備聯動做得不好，會讓用戶喚醒小愛同學的時候一呼多應，讓人欲言又止，無法自由說。再比如說聲紋技術本來初衷是簡化用戶的語音操作，但隨著聲控設備的增加，每個設備都需要做聲紋注冊，增加了用戶的使用成本。很多家居控製設備是家庭成員共享的，這些設備需要記住每個語音使用成員的偏好，上述提到的這些問題，小米的相關團隊都在努力優化中。

近幾年，業內討論較多的一個話題是，語音識別麵臨的下一個突破要從技術上突破還是從應用場景上突破，對此王育軍認為，技術突破和主宰性的應用場景總是交替出現。作為技術從業人員，他更希望利用技術去驅動應用。但近年來更多的時候是主宰性的應用場景複活了技術。比如說在 2007 年，很多語音界的人開始關注到了 GPU 在其他領域的應用，並把 GPU 遷移到聲學模型訓練中和推理中；2011 年，深度學習的成果已經在語音研究中逐漸形成，但直到 Siri 的出現才再次複活了手機語音助手；Google 開啟了語音搜索和語音輸入，人們才廣泛地認可語音交互，算力也成為了炙手可熱的資源。3G 和第一大波移動互聯應用的才讓研究者第一次把所謂的“鐵三角”（場景，算力，數據）閉環。遠場和端到端語音技術也是伴隨著 4G 時代第二波移動互聯的應用，才回到在人們視野中的。那個時代有人說智能等於一個設備可以觸達的應用於服務。正是因為我們有了移動互聯新貴的出現，才讓手機和音箱更有“料”。

關注我並轉發此篇文章，私信我“領取資料”，即可免費獲得InfoQ價值4999元迷你書！