時間:2019-06-25 來源:互聯網 瀏覽量:
2019年6月25日,由浪潮與OCP開放計算社區聯合主辦的首屆OCP China Day(開放計算中國日)在北京正式開啟。本屆OCP China Day聚焦人工智能、邊緣計算、OpenRack、OpenRMC、SONiC、OAM等前沿技術話題,來自Facebook、LinkedIn、Intel、微軟、百度、騰訊、阿裏、諾基亞、中國移動、浪潮等資深技術專家分享了最新技術進展。近千名工程師和數據中心從業者參加了此次大會。
OCP是全球最大的開放硬件社區,2011年由Facebook發起成立,其宗旨是以開源開放的方式,重構當前的數據中心硬件,發展麵向下一代數據中心的服務器、存儲、網絡、基礎設施等創新硬件。目前,OCP核心會員超過200家。
SONiC是微軟發布的開源交換機操作係統,是一個成熟的SDN軟件平台,實現了數據控製麵與轉發麵的分離,用戶可以采購白牌交換機搭載SONiC實現不同的網絡功能,SONiC使得用戶能夠更快的調試、修複並測試軟件,通過改變軟件策略和拓撲實現新的網絡架構,讓網絡實踐更為靈活。
在本次OCP China Day上,來自微軟、阿裏巴巴的專家共同分享了SONiC的最新進展。
以下為大會演講實錄:
Xin Liu, Microsoft Principal Product Manager:SONiC開源交換機係統,2018年微軟在管理上做了很大的投資,在性能和容錯上也在不斷進步,實現對Chassis的支持
Xin Liu, Microsoft Principal Product Manager
主持人:我們上午最後一個主題分享是有關SONiC。阿裏是其中一員,跟微軟一起在SONiC的推動上起到了應用,我們今天也請到了微軟的LiuXin女士,她會協同BaiWei先生一起講講SONiC的故事。
Xin Liu, Microsoft Principal Product Manager:很高興今天來到這裏跟大家分享SONiC在過去三年中的進展和前瞻,今天有三個部分,第一個是回顧一下三年來的發展,BaiWei是來自微軟研究院,會講述一個最新的技術。永鋒來自阿裏巴巴,他會介紹阿裏巴巴網絡的進展以及SONiC的應用。
今天有很多新的麵孔,在我們講SONiC進展之前先回顧一下什麼是SONiC?SONiC是基於linux開源的交換機操作係統。它跟傳統的操作係統有很多不同,最關鍵的讓大家記住的是兩點,第一,它是基於在SAI上麵的,在沒有SAI之前所有的芯片通過自己的SDK,跟上層的軟件通信,相當於用自己的方言跟上層的操作係統通信,SAI把這個方言標準化,大家的芯片用同樣的語言給上層的控製軟件交流,因為有了SAI,所以才能建立一個操作係統。
第二點,SONiC的特點,他給我們帶來非常多的好處,第一,能夠讓使用者非常好的使用自己需要的功能或者性能最好的東西放在操作係統中。第二,他有很好的擴展性,使用者無論需要增加新的功能,還是改變一個Droker,還是開發新的東西都不需要做太大的變化,隻需要對一個局部做出改變。
因為有了比較開放的係統結構,有了linux,有了Dorker這個非常豐富的生態係統,我們可以看到,在SONiC之上,大家建立了很豐富的管理軟件,可以建立自己的解決方案。
過去三年做了很多事情,2016年起,SONiC有很多大的項目,在那個時候SONiC隻是一個非常簡單的,L2L3,但是它有一個良好的骨架,它有Containerzed結構,為我們以後在SONiC上做各種的翻新打下良好基礎。2017年對性能做了很大的投資,提供了豐富的PO/S Spost,全麵支持IDV ,我們也展示了融合用Dorker做協調工作。
2018年在管理工作上也做了很大的投資,我們發現SONiC帶來的不僅是性能上的優化,而且它能夠讓數據中心的經理在上麵建立一個管理係統。
我們做了ConfigDB,這使得管理者控製和配置。
在性能方向上或者容錯方向不斷的進步,從2017年開始加上了嚴格的要求,這個延遲時間隻能小於80秒,2018年可以做到小於1秒或者零秒。往前看,我們會提供更豐富的性能,我們會加強測試以保證質量,我們也會在深度學習方麵做各種投資,方便參與開發測試和使用。這是在軟件方向的進展。
在社區有三個方向,在第一個階段因為它的吸引力,不斷的有團隊加入到裏麵,第二個階段,我們有不同的廠商和IT公司開始使用SONiC在他們的網絡中,比如我們知道的阿裏巴巴、騰訊,領英和微軟都把SONiC作為他們網絡的基礎。2019年公司開始商業服務,SONiC發展成支持不同的業務。
下麵把時間給Bai Wei。
微軟研究院Bai Wei:很高興跟大家分享一下SONiC如何支持的。SONiC在生態環境裏得到大規模部署,目前部署主要在T0和T1這一層,所以帶來的問題是,如果在T2和T3的Chassis交換機上,是沒有SONiC的。那麼隻是用Chassis交換機,就是體積越來越大的交換機,我們可以看到,這種Chassis有很多很好的優點,比如Power efficiency非常好,Port Density非常高。
我們的基本思想,我們要把原有的Chassis黑盒子打開,我們仍然有前端和後端的芯片,我們中間是用一個標準的以太網相連,熟悉數據中心網絡的朋友一定知道,其實數據中心互聯的基礎,我們是在用連接構建數據中心的方法構建Chassis內部網絡,網管們可以運營數據中心內部的網絡。在構建Chassis過程中,我們借鑒了很多傳統Chassis的優點,我們把Chassis的功能放在紅色的芯片上,然後我們前端的SONiC互相通信,廣播路由信息,後端的SONiC完全不知道,如果前端SONiC互相知道路由信息,他們怎麼把包轉發給彼此,我們用了一個虛擬化隧道,一個前端收到一個包以後,實際上每家網絡的需求和痛點不一樣,但是在SONiC的開放平台上一定可以定製出一款讓你滿意的解決方案。
Liu Xin:我們做了這麼多工作和成績,實際上跟我們的合作夥伴分不開,我們有阿裏巴巴、騰訊等等,2019年很多中國本地公司也加入了我們,非常感謝。
然後把舞台交給阿裏巴巴的高級專家劉永鋒先生。
阿裏巴巴高級專家劉永鋒:阿裏巴巴通過SONiC的大規模部署實現了高帶寬和低延遲,而且做了大量個性化開發,很好地推動了阿裏巴巴業務創新
阿裏巴巴高級專家劉永鋒
阿裏巴巴高級專家劉永鋒:大家好,我來自阿裏巴巴,我在阿裏巴巴的基礎設施網絡研發部門負責SONiC的研發,非常高興今天有機會在OCP中國日跟大家分享阿裏巴巴在網絡基礎設施方麵的技術關注點以及我們和OCP合作在SONiC上麵產生的技術成果和創新。談SONiC之前首先談一下阿裏今天麵對的網絡挑戰,大家可以看到今天我們作為阿裏巴巴的基礎設施是在支持我們的業務部門,也就是大家熟知的天貓、淘寶、支付寶、優酷、高德、阿裏雲這樣的互聯網服務,提供給全球的用戶,讓他們有一個非常高質量的用戶體驗,在這個背後我們有一張全球的網絡去支持他們提供高性能和低延遲的服務。
對於今天這麼大規模的互聯網服務來說,一個最大的特點就是它的超大規模,在這個超大規模的背後給我們帶來了非常多的挑戰,這個超大規模大到什麼程度呢,大家已經在前麵很多嘉賓的分享裏看到了,我們的網絡連接的是上百萬台的服務器、上千萬個虛擬的虛機,我們要提供25G、100G,高性能和低延遲要支撐一張非常大規模的網絡。同時在這麼大規模的網絡之後,我們每天都數以秒計的產生很多業務信息、網絡信息和網絡數據,我們必須有足夠的能力去及時處理,對於故障的發現、恢複和隔離我們都能夠做到快速有效的保障,這些都取決於我們怎麼構建底層的基礎設施。我們這麼大規模的網絡並不是一個靜態的網絡,它是一個動態的網絡,我們的業務隨時在交互,我們的用戶需求隨時在變化,我們的基礎設施必須能夠秒級的滿足客戶的需求,所以我們在背後要有一個算法驅動AI驅動的調度係統靈活調度我們的網絡資源。這些東西都要求我們能夠有一個非常穩健的基礎設施去提供服務。
往我們網絡底層的技術去看,這是對我們最近幾年阿裏巴巴在網絡基礎設施上麵的技術演進的小總結。大家可以看到2014-2015年這個時間段,我們更多的網絡研發的重點是在純軟件的優化上,我們引進了像DPDK這種用戶態的協議站替代我們的性能,取代了傳統硬件對我們的限製,在交換機上我們嚐試著用一個獨立的軟件運行在一個裸金屬的switch上,讓我們的軟硬件自主可控。隨著我們對軟硬件上的把控,到2016、2017年我們快速enable我們的硬件,底層網關數據從10G、40G快速演進到25G、100G,網關快速進入到400G時代。隨著硬件的快速落地,進入到2018、2019年大家可以看到一個很明顯的趨勢,軟硬件的融合進一步加劇了,隨著我們在軟硬件上麵能夠全棧的把控技術,我們快速引入RDMA這樣的技術在我們的數據中心集群裏大規模使用,我們可以引入可編程芯片這樣的最新的硬件能夠軟硬件結合的解決一些新的靈活性的業務需求。
我們從純軟件到快速的硬件演進再到軟硬件的高度融合,進入到了一個嶄新的網絡基礎設施的技術時代。剛才那張表是一個時間表,我給大家分享一個比較特別的視角。傳統的物理網絡都是由一個個硬件的純Switch構建的,但是我們的軟件網關又是一個傳統服務器形態的網絡設備,在我們基礎設施這層可以把它打平了看,大家可以看到當我們的軟硬件隨著軟件站和硬件站的自主可控,從底層25G、100G的物理網絡到RDMA這樣的低延遲的技術應用,我們很快可以在交換機和服務器側把這個技術落地,更高的應用層麵可以從交換機的物理網絡到網關的應用網絡,可以apply一個統一的調度係統,可以做到端到端的網絡質量的遙測,我們還可以做到定製化的高可用。雖然這兩張網絡運行的軟件站是不一樣的,它們的應用是不一樣的,但是我們可以通過一套技術站來統一它們。
接下來回到今天的主題,OCP的SONiC項目,阿裏巴巴從2017年就加入了SONiC社區,之後我們就和社區一起合作針對於阿裏對網絡的需求以及通用的和定製化的需求,我們都做了非常深入的開發。今天大家都非常好奇,我們阿裏使用的SONiC版本和社區的版本有什麼區別。除了針對阿裏網絡架構一些特定的需求之外,我們大多數的開發應用都回饋到了社區,所以大家可以看到阿裏的很多需求代表很多國內用戶,包括騰訊百度他們的需求和我們都非常類似,在這些需求上北美的用戶跟我們的需求是有差異的。我們列出的TACACS認證的支持、VAN-TRUCK的支持、我們做到的(英)都是阿裏貢獻到社區的部分。我們還在SONiC做到了性能提升。
總而言之,我們在SONiC社區上做的貢獻,阿裏運行的版本和社區版本是同步的。
基於SONiC這樣一個開放平台,大家在數據中心網絡的創新上可以做到很多根據自己的業務場景帶來的業務上的創新,有了這個streaming接口,和傳統的相比,我們可以把北向接口簡化,我們不僅可以做狀態的獲取,還可以做配置的下發,是一個統一的GRPC通道,這在我們交換機的事先上就被大大簡化了。
因為我們是基於一個非常開放的SONiC係統,SONiC可以幫助我們根據我們自己的網絡架構建立一套係統,使得網絡運維的時候自動線上變更之前可以在線下做軟件升級和配置變更的演練,這樣可以大大的提升我們網絡的穩定性,提高網絡的可用性。
最後,我們的業務對於可用性非常敏感的地方,我們基於SONiC做了一個當故障發生之後或者我們要做軟件升級的時候通過服務器和交換機端到端的定製,我們可以做到無損隔離,甚至可以做到零丟包,基於SONiC開放係統我們把很多之前的不可能變成了可能,所以在這裏借助OCP這個平台,非常感謝有這樣一個組織能夠讓我們大規模的互聯網用戶分享我們對於網絡運維的需求、軟硬件的需求和一些思考,也非常歡迎大家加入到SONiC社區來,我們希望能夠把SONiC變成數據中心網絡甚至未來邊緣計算的一個實施上的標準,這就是我今天帶來的分享,謝謝大家。
(7201285)