時間:2017-08-23 來源:互聯網 瀏覽量:
今日,微軟在 HotChips 大會上正式揭曉了 Brainwave 係統,該產品是微軟加入人工智能硬件競賽的首發產品。微軟表示這款高速度、低延遲的 AI 專用芯片係統可以為機器學習開發者們提供超越 GPU 的性能。
微軟的研究人員現場展示了 Brainwave 的威力:在使用英特爾最新的 Stratix 10 FPGA(現場可編程門陣列)芯片的情況下,Brainwave 運行 Gated Recurrent Unit(LSTM的變種)的浮點運算速度可高達 39.5 TFLOPS,並且不需要任何批量處理,即芯片可以即時處理每一項提交上去的請求,為機器學習係統提供實時的見解。
對於用戶來說,低延遲是大規模部署機器學習係統時必須滿足的一個要求,因為他們不會有太多耐心等待 APP 反應。
“我們需要‘即時AI’,因為你在提交請求後,會想立刻獲得反饋,不論是視頻播放、對話,還是檢測網絡入侵者和異常狀況,你會期望 APP 都能即時反饋”,微軟研究所的工程師 Doug Burger 說。
然而,之前的硬件加速機器學習係統相關的研究卻注重於犧牲延遲來實現高流量。Burger 認為,需要思考的是,在不對請求進行批量處理時,機器學習加速器的反應速度。“其他人給出的數字都注水了。”
由於 FPGA 屬於可編程芯片,它可以讓開發者專門為各種功能對硬件進行優化設置,比如設置出可以快速處理神經網絡所需的數學計算的硬件。微軟已在其數據中心安裝了數十萬枚 FPGA。而這些 FPGA 已經開始使用 Brainwave,讓微軟的各種服務可以更迅速地支持人工智能功能。此外,微軟還將通過旗下 Azure 雲服務,向第三方客戶提供 Brainwave。
在這些 FPGA 上,Brainwave 會提前設置好一個經過訓練的機器學習模型。之後,它們就可以被用來做識別文字、辨別圖像等機器學習任務了。對於一個較大的文件,Brainwave 的軟件可以將它分拆到多個芯片上進行計算。而這個模型將永存與這些 FPGA 上,直到微軟選擇對其進行升級。
微軟並不是唯一一家投資於加速機器學習硬件的公司。今年年初,穀歌就曾揭曉其機器學習訓練和運行的專用芯片——TPU(Tensor Processing Unit)的第二個版本。此外,還有多家初創公司正在開發機器學習加速硬件。
然而,各方各界對於機器學習加速硬件的看法卻並不一樣。有些人認為,FPGA比專門為機器學習而設計的 ASIC(專用集成電路)效率更低,速度更慢。Burger 表示,他們在 FPGA 上所展現的性能足以反駁這一說法,讓人們見識到FPGA 也可以提供高性能。
而且,今天微軟的展示的 Stratix 10 是一款全新芯片,還有與英特爾合作優化的空間。據Burger計算,使用 Stratix 10 的 Brainwave 的運算速度最高應該可以實現 90 TFLOPS。
目前,Brainwave 隻支持在微軟 CNTK 框架和穀歌 TensorFlow 框架下的模型。其團隊正開發兼容 Caffe 等其他框架的 Brainwave 版本。微軟表示,未來,第三方客戶將可以在 Brainwave 上運行任何模型,不過並未給出 Brainwave 全麵上市的時間表。
-End-