當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]本文根據(jù)蔡逸煌老師在〖Deeplus直播第214期〗線上分享演講內(nèi)容整理而成。 蔡逸煌 OPPO云平臺(tái)高級(jí)后端工程師 主要從事云平臺(tái)開(kāi)發(fā)工作,擅長(zhǎng)K8S、容器網(wǎng)絡(luò)、存儲(chǔ)等領(lǐng)域。 今天分享的主題是OPPO云存儲(chǔ)的上云之路。 分布式存儲(chǔ)介紹 存儲(chǔ)相比于其他組件,更底層,


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


本文根據(jù)蔡逸煌老師在〖Deeplus直播第214期〗線上分享演講內(nèi)容整理而成。


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐

蔡逸煌

OPPO云平臺(tái)高級(jí)后端工程師


  • 主要從事云平臺(tái)開(kāi)發(fā)工作,擅長(zhǎng)K8S、容器網(wǎng)絡(luò)、存儲(chǔ)等領(lǐng)域。


今天分享的主題是OPPO云存儲(chǔ)的上云之路。


分布式存儲(chǔ)介紹


存儲(chǔ)相比于其他組件,更底層,所以有必要做一個(gè)簡(jiǎn)單的科普。


1、對(duì)象存儲(chǔ)



主要是對(duì)整個(gè)文件進(jìn)行操作,提供了對(duì)整個(gè)文件進(jìn)行增刪查改的能力。不支持對(duì)對(duì)象內(nèi)容進(jìn)行增量修改,如七牛的對(duì)象存儲(chǔ),AWS S3,阿里OSS,呈現(xiàn)給我們調(diào)用方式是http api。


2、分布式文件系統(tǒng)



文件存儲(chǔ)實(shí)現(xiàn)了文件的POSIX接口,由于整個(gè)文件系統(tǒng)不依賴操作系統(tǒng),常用于實(shí)現(xiàn)共享文件系統(tǒng),常見(jiàn)的比如說(shuō)ceph fs,gluster fs呈現(xiàn)給我們的使用方式是文件系統(tǒng)。


3、分布式塊存儲(chǔ)



提供裸塊的能力交由物理機(jī)使用,協(xié)議是SCSI,iSCSI,文件系統(tǒng)層由操作系統(tǒng)提供。呈現(xiàn)給我們的使用方式是裸盤(pán),不帶任何文件系統(tǒng),需要格式化后使用,或者使用塊API。


云平臺(tái)存儲(chǔ)基本架構(gòu)


目前塊存儲(chǔ)主要是三個(gè)組件,gateway、storage、 cluster manager。


  • gateway主要是解析iscsi協(xié)議,把塊請(qǐng)求解析發(fā)送到storage進(jìn)行處理;

  • storage則是對(duì)塊的讀寫(xiě)操作進(jìn)行處理,管理磁盤(pán)數(shù)據(jù)

  • cluster manager為元數(shù)據(jù)中心,保存節(jié)點(diǎn)的狀態(tài),對(duì)整個(gè)集群的健康狀態(tài)做仲裁


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


云原生存儲(chǔ)


現(xiàn)在Kubernetes 的趨勢(shì)愈演愈烈,Kubernetes 逐漸成為云原生時(shí)代的基礎(chǔ)設(shè)施,為了給上云的程序提供服務(wù),云原生也隨之出現(xiàn),目前世面上已經(jīng)有OpenEBS Portworx 和Rook等產(chǎn)品。


云原生存儲(chǔ)不僅要為上云的服務(wù)提供服務(wù),自身也利用云的特性增強(qiáng)自身的功能,依賴Kubernetes的特性,我們可以輕運(yùn)維,輕部署,利用容器隔離的能力,減少異常進(jìn)程之前的相互影響,提高整體資源的利用率。


Kubernetes與CSI


Kubernetes作為未來(lái)云上的操作系統(tǒng),把存儲(chǔ)整個(gè)生命周期和管理抽象成三種資源。


1、StorageClass



抽象了管理存儲(chǔ)相關(guān)的配置,主要是provisioner、parameters、reclaimPolicy這三個(gè)配置。


  • provisioner: 表示某一種存儲(chǔ)資源 

  • parameters: 相當(dāng)于自定義配置,自定義一些存儲(chǔ)屬性 

  • reclaimPolicy:設(shè)置volume釋放后,pv的動(dòng)作,Delete or Retain


通過(guò)聲明不同stroageclass可以管理多種類型的存儲(chǔ)比如說(shuō)ceph,glusterfs等等。


2、PersistentVolume



表示一段已分配的存儲(chǔ),可以是文件系統(tǒng),也可以是裸塊,云存儲(chǔ)的云盤(pán)或者文件系統(tǒng)映射到Kubernetes 就是一個(gè)PersistentVolume。


3、PersistentVolumeClaim



用戶存儲(chǔ)的請(qǐng)求,可以請(qǐng)求特定的容量大小和訪問(wèn)模式(例如,可以以讀/寫(xiě)一次或指向多次模式掛載)。


抽象出PersistentVolumeClaim把存儲(chǔ)和管理分離,通過(guò)PersistentVolumeClaim我們可以控制訪問(wèn)存儲(chǔ)的權(quán)限,存儲(chǔ)的容量和類型。


下圖是Kubernetes使用存儲(chǔ)的一個(gè)方式:


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


這里衍生下Kubernetes 的一些設(shè)計(jì)理念,Kubernetes 使用聲明式的API,通過(guò)YAML聲明請(qǐng)求,并保存到etcd,這樣做的好處是把整個(gè)請(qǐng)求記錄下來(lái),對(duì)于問(wèn)題的回溯也比較方便,不用自己去記錄日志提煉請(qǐng)求。


另外Kubernetes 還提供了對(duì)于各種資源的watch Api,各種資源的crud都可以通過(guò)watch api實(shí)時(shí)的拿到對(duì)應(yīng)的YAML,這樣的設(shè)計(jì)的好處是讓Kubernetes 擁有非常好的擴(kuò)展性,通過(guò)實(shí)現(xiàn)controller 去watch各種資源的變化情況,定義該資源的crud行為。


4、Container Storage Interface



提供一個(gè)將任意塊或者文件存儲(chǔ)系統(tǒng)對(duì)接到給容器編排系統(tǒng)(COs)上的接口標(biāo)準(zhǔn),如Kubernetes。


把存儲(chǔ)從創(chuàng)建到銷毀整個(gè)生命周期抽象成一組標(biāo)準(zhǔn)接口,Kubernetes通過(guò)對(duì)接CSI,實(shí)現(xiàn)對(duì)存儲(chǔ)整個(gè)生命周期的管理。


下圖就是CSI定義的存儲(chǔ)卷的生命周期:


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


5、Kubernetes中對(duì)接CSI



上文說(shuō)道Kubernetes 對(duì)存儲(chǔ)的抽象是StorageClass,PersistentVolume ,PersistentVolumeClaim等資源CSI 則是提供一組標(biāo)準(zhǔn)接口。所以需要引入一層把Kubernetes 中的資源行為轉(zhuǎn)為CSI接口的程序,Kubernetes 提供了多個(gè)sidecar屏蔽這個(gè)過(guò)程。


這里簡(jiǎn)單科普下sidecar,一般來(lái)說(shuō),引入sdk實(shí)現(xiàn)某些功能,在編譯的時(shí)候把sdk代碼編譯進(jìn)去,更新sdk要重新發(fā)布,和工程耦合的比較緊密,sidecar則是把sdk實(shí)現(xiàn)的功能通過(guò)在pod運(yùn)行一個(gè)獨(dú)立的容器實(shí)現(xiàn),通過(guò)sidecar們提供rpc接口進(jìn)行交互,可以作為被調(diào)用方,也可以是把服務(wù)包裝起來(lái)增強(qiáng)服務(wù)功能,增加這樣子的好處是解耦,讓更新sidecar容器的版本更簡(jiǎn)單。


通過(guò)引入以下sidecar,我們可以只專注于實(shí)現(xiàn)CSI定義的接口。


  • external-attacher:輔助觸發(fā)ControllerPublishVolume

  • external-provisioner:輔助觸發(fā)Controller相關(guān)接口

  • node-driver-registar:輔助注冊(cè)csi插件到kubelet 

  • external-resizer:輔助實(shí)現(xiàn)volume擴(kuò)容 

  • external-snappshotter:輔助實(shí)現(xiàn)volume快照

  • livenessprobe:轉(zhuǎn)換csi prob到k8s的liveness


6、Kubernetes和CSI的架構(gòu)



從官網(wǎng)給的圖我們就可以直白的看到粉紅色框的sidecar們相當(dāng)于一層膠水,把Kubernetes和csi鏈接起來(lái)


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


1)PV與調(diào)度


至此我們已經(jīng)講完了Kubernetes和CSI與K8S怎么交互的,接下來(lái)講下PV與調(diào)度的關(guān)系。


在調(diào)度階段,PV的affinity 會(huì)影響Pod的調(diào)度,所以有調(diào)度需求的可以通過(guò)PV的affinity控制。


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


2)NodeStatgeVolume與NodePublishVolume


之前查閱資料的時(shí)候發(fā)現(xiàn)這兩個(gè)接口的說(shuō)明講的比較少。


NodeStatgeVolume的接口是把遠(yuǎn)端的云盤(pán)掛到物理機(jī)上面。NodePublishVolume的接口是把NodeStatgeVolume之后的盤(pán)掛進(jìn)容器里面。Kubernetes 在NodeStatgeVolume階段會(huì)給每個(gè)PV生成一個(gè)全局掛載點(diǎn),如下圖:



基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


通過(guò)判斷這個(gè)掛載點(diǎn)是否掛載可以方式PV重復(fù)掛載導(dǎo)致出錯(cuò)。接下來(lái)NodePublishVolume把NodeStatgeVolume的的掛載點(diǎn)掛載的自己Pod文件夾下,最終這個(gè)Pod的掛載點(diǎn)會(huì)被掛載進(jìn)容器里面。


存儲(chǔ)容器化


存儲(chǔ)作為基礎(chǔ)組件,直接和本地盤(pán)打交道,所以我們一個(gè)要解決的事情就是如果Kubernetes 管理本地盤(pán)。


kubernetes管理本地盤(pán)


通過(guò)官方提供的local-static-provisioner自動(dòng)生成LocalPersistentVolume管理磁盤(pán)。


LocalPersistentVolume是Kubernetes提供的一種管理本地盤(pán)的資源。


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


1、使用Statefulset管理存儲(chǔ)容器



通過(guò)statefulset 管理有狀態(tài)的存儲(chǔ)服務(wù), 為每個(gè)pod分配一個(gè)單獨(dú)的磁盤(pán)可以使用volumeClaimTemplates給每個(gè)pod生成唯一的pvc,具體規(guī)則${claimNmae}-${podName},事先準(zhǔn)備好PVC 和 PV,通過(guò)Statefulset 我們就可以把我們的存儲(chǔ)托管到云上了。另外借助daemonset,可以把我們gateway模塊部署到每一個(gè)node上面。處理云存儲(chǔ)的請(qǐng)求。


基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐


2、存儲(chǔ)容器化的收益



1)降低運(yùn)維成本


基于Kubernetes和statfulset獲得了滾動(dòng)更新,灰度更新,健康檢查,快速擴(kuò)容等功能,只需要一組yaml文件就可以快速搭建一個(gè)集群,相比于傳統(tǒng)寫(xiě)ansible腳本部署的方式復(fù)雜度大大降低。


2)降低開(kāi)發(fā)運(yùn)維成本


由于Kubernetes把存儲(chǔ)抽象成StorageClass PersistentVolume PersistentVolumeClaim。我們可以通過(guò)他們管理我們的存儲(chǔ)資源,基于Kubernetes lable的過(guò)濾功能,可以實(shí)現(xiàn)簡(jiǎn)單的關(guān)系查詢,通過(guò)PVC與PV管理存儲(chǔ)資源,減少管理端的開(kāi)發(fā)。定位問(wèn)題也能通過(guò)POD信息快速定位到問(wèn)題機(jī)器和問(wèn)題云盤(pán)。而且接入Kubernetes生態(tài)上的prometheus后,監(jiān)控告警也能快速開(kāi)發(fā)。


3)隔離性增強(qiáng)


docker限制cpu memory使用,減少進(jìn)程之間資源互相干擾,進(jìn)一步提升資源利用率。

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:

基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐

長(zhǎng)按訂閱更多精彩▼

基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐

如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉