如何實現(xiàn)虛擬網(wǎng)絡(luò)流量的可視化
近年來,云計算在運營商、金融、互聯(lián)網(wǎng)等多個行業(yè)得到了廣泛應(yīng)用,大數(shù)據(jù)、微服務(wù)等各種面向云計算的應(yīng)用和架構(gòu)也應(yīng)運而生,SDN也因云而生?!癝DN的應(yīng)用已經(jīng)步入商用化軌道,DC和DC之間的SDN應(yīng)用已經(jīng)規(guī)模商用。”在前不久召開的“SDN/NFV/AI大會”上,中國電信科技委主任韋樂平指出。
這些變化對支撐企業(yè)IT的網(wǎng)絡(luò)工程師們產(chǎn)生了強大的沖擊,面對看不見的云網(wǎng)絡(luò),如何實現(xiàn)虛擬網(wǎng)絡(luò)流量的可視化成為業(yè)界亟待解決的問題。近日,云杉網(wǎng)絡(luò)研發(fā)總監(jiān)向陽接受通信世界全媒體記者的采訪,分享了云杉網(wǎng)絡(luò)如何通過SDN全景圖點亮云網(wǎng)絡(luò)黑盒的實踐經(jīng)驗。
東西向流量是未來主角
根據(jù)思科全球云指數(shù)給出的報告,到2020年,數(shù)據(jù)中心內(nèi)部東西向網(wǎng)絡(luò)流量占到了77%,再加上數(shù)據(jù)中心之間的(例如災(zāi)備場景下,同城的光纖)流量,數(shù)據(jù)中心東西向流量占比高達86%之多。根據(jù)思科預(yù)測,2020年云化數(shù)據(jù)中心的流量是占全球數(shù)據(jù)中心總流量的92%。
向陽指出,通常一個數(shù)據(jù)中心云網(wǎng)絡(luò)規(guī)模的流量是TB級別,在不干擾生產(chǎn)環(huán)境的前提下完成流量的全網(wǎng)采集、全景分析和按需分發(fā)成為保障云端業(yè)務(wù)的關(guān)鍵。然而,對數(shù)據(jù)中心流量的采集,傳統(tǒng)的分光/鏡像/采樣(sFlow、NetFlow等)的方法,其缺點是只能覆蓋到物理網(wǎng)絡(luò),其對接的后端NPM/安全分析能力也只是GB級別。
采集虛擬網(wǎng)絡(luò)流量,必須安全、可靠,即需要滿足三大要點:一是繪制與當(dāng)前運行情況相符的虛擬化網(wǎng)絡(luò)拓撲結(jié)構(gòu)圖,并能對虛擬化網(wǎng)絡(luò)資源、網(wǎng)絡(luò)拓撲進行實時更新和集中監(jiān)控;二是保證云計算平臺管理流量與云租戶業(yè)務(wù)流量分離;三是能識別、監(jiān)控虛擬機之間、虛擬機與物理機之間的流量。
向陽講到,對于一個整體的Fabric網(wǎng)絡(luò),其流量是能輕松達到TB級別的,當(dāng)我們將這些流量全部采集下來之后,如何將流量和消費端對接起來(因為后端的分析能力是無法消化TB級流量的)也是一個嚴肅的問題。這兩個因素疊加起來,跟傳統(tǒng)網(wǎng)絡(luò)一層層漂亮的規(guī)劃圖相比起來,云數(shù)據(jù)中心的多租戶的各種業(yè)務(wù)跑在一張網(wǎng)里,這里有不同的VPC、IP重疊,我們很難再用一幅清晰的圖來表示這個網(wǎng)絡(luò),此時的數(shù)據(jù)中心網(wǎng)絡(luò)無疑是一團亂麻。當(dāng)出現(xiàn)業(yè)務(wù)故障時,團隊的權(quán)責(zé)也因此開始模糊起來。
以前出問題就抓包,現(xiàn)在去哪兒抓都不知道;以前防火墻跟著業(yè)務(wù)開,現(xiàn)在該開哪個墻都不知道;以前新上線就新機柜,現(xiàn)在該去哪個池都不知道...面對云網(wǎng)絡(luò)“黑盒”,如何破解?對此,云杉網(wǎng)絡(luò)提出SDN全景圖理念。向陽表示,SDN全景圖,為云時代的網(wǎng)工們打開云網(wǎng)絡(luò)的黑盒,實現(xiàn)快速定位端到端故障,安全策略實時驗證,業(yè)務(wù)上線全局優(yōu)化...實現(xiàn)虛擬網(wǎng)絡(luò)流量的多維度可視化,達成點亮云網(wǎng)黑盒的目的。
不同的環(huán)境不同的應(yīng)對方案
向陽指出,常規(guī)的解決方法,是把流量和網(wǎng)絡(luò)配置全部拿下來。但在虛擬化環(huán)境中,分光鏡像的手段在云里是無法工作,VMware的VDS有鏡像能力,但商用的OpenStack環(huán)境里OvS通常沒有這個能力,而鏡像的方案對資源的消耗也是倍增的。
“云杉網(wǎng)絡(luò)的策略是從先進的數(shù)據(jù)采集技術(shù)入手,在此基礎(chǔ)上建立刻畫云網(wǎng)絡(luò)的全景視圖和運維、運營、安全管理機制?!毕蜿柋硎?,對于采集到的數(shù)據(jù),通過標(biāo)記后,可以從不同的維度繪制一個從地域到VPC再到服務(wù)器、子網(wǎng)、虛擬機、虛擬機接口、IP等從宏觀到微觀的云網(wǎng)絡(luò)全景視圖。
我們的目標(biāo)是網(wǎng)絡(luò)本地的轉(zhuǎn)發(fā)和計算的本地處理。向陽講到,那么我們應(yīng)該怎么實現(xiàn)對虛擬網(wǎng)絡(luò)盲點數(shù)據(jù)的全量采集呢?將物理網(wǎng)絡(luò)的關(guān)鍵節(jié)點(主要是接入部分)覆蓋,例如數(shù)據(jù)中心出口、防火墻的前后,以及接入交換機等。但是虛擬網(wǎng)絡(luò)要相對復(fù)雜一些,常見的虛擬交換機一般沒有流量鏡像能力、有鏡像能力的資源開銷太大、用戶也難以接受。對于不同的環(huán)境我們有不同的應(yīng)對方案,對于KVM這類開放方案,可以進行本地的預(yù)處理——在宿主機上將流量轉(zhuǎn)換成(各個維度的)遙測數(shù)據(jù)。
在混合云的場景中,大家比較關(guān)注的是資源消耗,其主要的消耗是把包抽取出來和壓縮后再發(fā)送,云杉網(wǎng)絡(luò)的優(yōu)化方案是利用DPDK或者Linux內(nèi)核實現(xiàn)零拷貝。當(dāng)然這里也有局限,在追求性能極致的同時還要兼顧對客戶系統(tǒng)環(huán)境的無擾,我們需要做到僅靠已有的環(huán)境來獲取自己想要的流量,這在性能優(yōu)化方面給我們帶來了許多的技術(shù)挑戰(zhàn)。
DeepFlow?點亮云網(wǎng)絡(luò)的黑盒
云杉網(wǎng)絡(luò)推出的DeepFlow?虛擬網(wǎng)絡(luò)流量采集、分發(fā)與分析平臺為多種云平臺提供一體化的虛擬網(wǎng)絡(luò)流量解決方案,其專利的虛擬流量采集技術(shù)具備大規(guī)模、零干擾、無依賴、過載保護、預(yù)處理等優(yōu)點;單臺控制器同時管理1000個采集點和自動管理并下發(fā)4000條過濾策略,適用于生產(chǎn)環(huán)境的大規(guī)模虛擬網(wǎng)絡(luò)。
基于運維管理者視角,DeepFlow?分別從云租戶、云資源和云網(wǎng)絡(luò)三個維度進行關(guān)聯(lián)分析,幫助云數(shù)據(jù)中心提高運維效率;優(yōu)化資源使用率;提升安全性,從而提升云服務(wù)SLA水平。
云杉網(wǎng)絡(luò)于2019年3月18日發(fā)布了DeepFlow? v5.5.1版,該版本優(yōu)化了網(wǎng)絡(luò)對象的管理,增強了業(yè)務(wù)分析能力,改進了告警策略和報表管理;網(wǎng)絡(luò)全景圖功能完善了VPC視角,并加入主機視角,實現(xiàn)了端到端的流量統(tǒng)計與分析,云平臺管理模塊增加了對虛擬路由器的支持,優(yōu)化后的采集器日志文件上限為1M/天。
目前,作為面向云數(shù)據(jù)中心的虛擬網(wǎng)絡(luò)流量采集分析平臺,DeepFlow?率先在金融、電信、電力、教育等行業(yè)近百家企業(yè)部署,包括平安科技、興業(yè)數(shù)金、中國移動、國家電網(wǎng)、蘇州國科數(shù)據(jù)中心等標(biāo)桿客戶,已經(jīng)成為企業(yè)云數(shù)據(jù)中心網(wǎng)絡(luò)穩(wěn)定和高效運營的典范。