當前位置:係統粉 >   IT資訊 >   微軟資訊 >  微軟: FPGA在AI領域勝過Google的TPU

微軟: FPGA在AI領域勝過Google的TPU

時間:2017-08-30 來源:互聯網 瀏覽量:

在最近的HotChips大會上,三家全球最大的數據中心公司詳細介紹了利用現場可編程門陣列(FPGA)作為性能匱乏的數據中心應用程序加速器的項目,特別是機器學習。 雖然賽靈思和英特爾(子公司Altera)長期以來一直在談及其技術改變數據中心景觀的潛力,但廣泛應用仍然難以實現,部分原因是FPGA開發帶來的挑戰。特別是亞馬遜、百度和微軟都宣布了相應的技術和舉措,他們希望通過解決這些障礙來加強自己的AI服務。百度和亞馬遜的公告可能會對FPGA在數據中心的應用帶來好處,反過來也可能為英特爾,特別是賽靈思(主營業務就是FPGA)的發展鋪平道路。賽靈思公司戰略高級副總裁史提夫格拉澤曾說:“當業界最亮眼的熱潮轉向HotChips大會時,亞馬遜、百度和微軟全都選擇了在數據中心的FPGA加速方麵進行創新。很顯然,超大型數據中心的FPGA加速勢頭依然在上升。”

微軟: FPGA在AI領域勝過Google的TPU(1)

首先,百度宣布了一個新架構,他們希望擴大FPGA作為加速平台的使用。新的百度“XPU”將賽靈思的FPGA中的CPU,GPU和FPGA靈活配置在一起,與傳統的低級技術開發人員使用FPGA相比,他們希望比傳統的低級技術更容易編程。對於他們來說,亞馬遜網絡服務通過F1加速平台方麵對他們的進展情況進行了更新,F1加速平台支持配備8節點Xilinx的EC2實例,以實現FPGA加速應用程序的開發。

微軟宣布了什麼?

雖然亞馬遜和百度正在努力使FPGA更易於訪問和更容易在雲上進行編程,但微軟可能是數據中心應用程序的最大的FPGA終極用戶,可以加速大規模的計算基礎架構和Bing以及Azure上的應用程序。為了展現自己的實力,微軟推出了一個可擴展的深度學習加速平台Project Brainwave,可以為基於雲的AI服務提供實時響應。微軟此前已經宣布了其中大約29個這樣的AI API,減少了企業擁抱AI的障礙。現在,Microsoft正在共享有關構建這些MLaaS, APl和Bing內部服務的硬件基礎架構的詳細信息。

微軟的Project Brainwave由三個組成部分組成:

一個高性能的係統架構,它是用於加速數據中心服務和擴展的加速器。通過將其加速器連接在高帶寬,低延遲架構上,Microsoft可以動態分配這些資源以優化其利用率,同時保持超低延遲。

一個在14nm級Altera FPGA上編程或合成的“軟”DNN處理器(DPU)。 以下有更多內容。

一個編譯器和運行環境,用以支持使用微軟DNN平台的CNTK有效部署訓練神經網絡模型。與Google的TPU和TensorFlow類似,Microsoft需要一個能為自己進行優化的硬件平台。有趣的是,微軟聲稱CNTK可以比TensorFlow有更顯著的性能優勢,特別是在用於自然語言處理的複現神經網絡方麵。但Brainwave在進一步增強CNTK性能上尚不清楚。

微軟: FPGA在AI領域勝過Google的TPU(2)

正如我最近所探討的那樣,一個完全自定義的芯片或者ASIC可以為像Google這樣的公司帶來一個非常快速的機器學習加速器,而且每單位成本會更低,但是開發過程在固定功能芯片中可能成本高昂、冗長且需要重新集成,阻礙了隨著算法演變而快速適應實現的能力。微軟公司宣布將其作為基於FPGA策略的主要驅動力。通過為其“軟”DPU使用FPGA而不是ASIC,微軟認為能更好地優化其硬件,使軟件成本更低且隨著時間的推移具有更大的靈活性。

FPGAs在機器學習中能體現優勢的一個很好的例子就是能夠定製深層神經網絡中特定層所需的精度水平。NVIDIA率先在Pascal和Volta GPU中使用了精簡計算精度(這兩者都支持16位浮點和8位整數運算)。但是為什麼停在那裏?考慮從圖像中確定某人的性別的神經網絡層的要求,該屬性隻需要2位:男性,女性或其他(未知)。此外,使用FPGA,神經網絡設計者可以以最佳(最小)位數對網絡中的每個層進行建模,這可以對性能和效率產生重大影響,如下圖所示。對LSTM或長時間內存的引用是一種通常用於自然語言處理的機器學習,這是微軟的一部分。

微軟: FPGA在AI領域勝過Google的TPU(3)

總結

機器學習領域需要快速的加速芯片,雖然Google采用了ASIC路徑,但微軟已經證明,他們可以使用FPGA與其相當甚至在某些情況下獲得更好的結果,從而使他們能夠通過自定義硬件來持續跟蹤軟件創新。同時,賽靈思,百度和亞馬遜正在共同努力,降低甚至完全消除FPGA應用的傳統障礙。總而言之,這些舉措意味著其他大型AI客戶和供應商也有機會分得一塊蛋糕; 他們可以為應用優化定製芯片,同時降低定製ASIC方法所需的成本,避免潛在的技術過時問題。但是,我們隻是接觸到了這個創新應用的表麵而已。

我要分享:

最新熱門遊戲

版權信息

Copyright @ 2011 係統粉 版權聲明 最新發布內容 網站導航