時間:2018-09-09 來源:互聯網 瀏覽量:
能通吃Hadoop、Spark、Kafka等開源框架的微軟Azure雲端大數據平台HDInsight,近日該平台上釋出了Spark除錯工具包,可以支持Spark 2.3版及未來的新版本。搭配此款除錯工具包,可以將Spark任務的工作圖表、資料流予以視覺化,讓Spark開發者處理資料管理、資料取樣、監控及診斷任務時,更為順利。
微軟也公告,這款Spark除錯工具包未來會釋出更多新功能,包含關鍵路徑分析、Data Skew及Time Skew問題分析等。
現在Spark除錯工具包已經內建在HDInsight Spark曆史紀錄服務器,從Azure Portal進入的開發者,隻要點選叢集儀表板、Spark曆史紀錄服務器的選項,就能存取功能。
在HDInsight中的Spark曆史紀錄服務器(Spark History Server),微軟現在新增了兩個新功能,分別是Graph Tab及Data Tab。首先是Graph Tab,提供使用者視覺化的互動體驗。例如,Spark工作圖表會列出任務執行的細節,包含各階段中資料的輸入、輸出資訊,開發者可以重新回放(playback)功能,重現完整的任務程序。借此功能,可以進一步診斷工作流程中的性能表現、資料處理時間,找出每個流程中出現的離群值,改善應用程式的流暢度。
再者是Data Tab功能,支持開發者利用CSV格式,彙出輸入、輸出、搜索或者URL等數據,例如,資料科學家可以下載部分取樣數據,在本地環境進行除錯、執行任務。
微軟這次推出的除錯工具包,當中一個新功能是回放(Playback)。係統會列出完整的任務流程,在頁麵選單中,開發者可以指定Job ID、呈現資訊(如資料讀取、寫入)。借此,係統就會重現流程,開發者可以觀察流程中的瓶頸為何,進而改善性能。