時間:2017-12-06 來源:互聯網 瀏覽量:
IBM與EPFL的研究人員合作,創造了一種用於處理大型數據集以訓練機器學習算法的新方法。 這種被稱為Duality-gap based Heterogeneous Learning(DuHL)的新算法能夠每60秒推送30GB的數據,比以前的方法提高了10倍。
通常,需要TB的內存才能模擬某些機器學習模型。所需的 服務器 硬件相當昂貴,甚至一旦建立操作,計算能力仍然是研究人員的一個問題。運行一個測試幾天甚至幾個星期,使得研究人員難以按小時租用硬件進行機器學習。
利用GPU進行並行計算已經有好多年了,但目前的顯卡還沒有達到IBM研究所需的太字節內存需求。目前針對GPU,有不同節點分割計算需求的方法,但不是所有的任務都適合分配。對此,IBM現在允許其機器學習工具隨著算法的進展而改變對單個數據片段的調用。簡而言之,過去的成就將貫穿整個驗證階段,以便為係統提供反饋,使係統比以前更快地指向正確的方向。
在初步測試期間,IBM使用了配有8GB GDDR5內存的NVIDIA Quadro M4000顯卡。在這種價格適中的專業圖形卡上IBM證明,與標準的順序操作方法相比,使用DuHL係統可以將支持向量機訓練速度提高10倍以上。