基于Kubernetes的云平臺(tái)存儲(chǔ)容器化實(shí)踐
本文根據(jù)蔡逸煌老師在〖Deeplus直播第214期〗線上分享演講內(nèi)容整理而成。
蔡逸煌
OPPO云平臺(tái)高級(jí)后端工程師
主要從事云平臺(tái)開(kāi)發(fā)工作,擅長(zhǎng)K8S、容器網(wǎng)絡(luò)、存儲(chǔ)等領(lǐng)域。
今天分享的主題是OPPO云存儲(chǔ)的上云之路。
分布式存儲(chǔ)介紹
存儲(chǔ)相比于其他組件,更底層,所以有必要做一個(gè)簡(jiǎn)單的科普。
主要是對(duì)整個(gè)文件進(jìn)行操作,提供了對(duì)整個(gè)文件進(jìn)行增刪查改的能力。不支持對(duì)對(duì)象內(nèi)容進(jìn)行增量修改,如七牛的對(duì)象存儲(chǔ),AWS S3,阿里OSS,呈現(xiàn)給我們調(diào)用方式是http api。
文件存儲(chǔ)實(shí)現(xiàn)了文件的POSIX接口,由于整個(gè)文件系統(tǒng)不依賴操作系統(tǒng),常用于實(shí)現(xiàn)共享文件系統(tǒng),常見(jiàn)的比如說(shuō)ceph fs,gluster fs呈現(xiàn)給我們的使用方式是文件系統(tǒng)。
提供裸塊的能力交由物理機(jī)使用,協(xié)議是SCSI,iSCSI,文件系統(tǒng)層由操作系統(tǒng)提供。呈現(xiàn)給我們的使用方式是裸盤(pán),不帶任何文件系統(tǒng),需要格式化后使用,或者使用塊API。
云平臺(tái)存儲(chǔ)基本架構(gòu)
目前塊存儲(chǔ)主要是三個(gè)組件,gateway、storage、 cluster manager。
gateway主要是解析iscsi協(xié)議,把塊請(qǐng)求解析發(fā)送到storage進(jìn)行處理;
storage則是對(duì)塊的讀寫(xiě)操作進(jìn)行處理,管理磁盤(pán)數(shù)據(jù)
cluster manager為元數(shù)據(jù)中心,保存節(jié)點(diǎn)的狀態(tài),對(duì)整個(gè)集群的健康狀態(tài)做仲裁
云原生存儲(chǔ)
現(xiàn)在Kubernetes 的趨勢(shì)愈演愈烈,Kubernetes 逐漸成為云原生時(shí)代的基礎(chǔ)設(shè)施,為了給上云的程序提供服務(wù),云原生也隨之出現(xiàn),目前世面上已經(jīng)有OpenEBS Portworx 和Rook等產(chǎn)品。
云原生存儲(chǔ)不僅要為上云的服務(wù)提供服務(wù),自身也利用云的特性增強(qiáng)自身的功能,依賴Kubernetes的特性,我們可以輕運(yùn)維,輕部署,利用容器隔離的能力,減少異常進(jìn)程之前的相互影響,提高整體資源的利用率。
Kubernetes與CSI
Kubernetes作為未來(lái)云上的操作系統(tǒng),把存儲(chǔ)整個(gè)生命周期和管理抽象成三種資源。
抽象了管理存儲(chǔ)相關(guān)的配置,主要是provisioner、parameters、reclaimPolicy這三個(gè)配置。
provisioner: 表示某一種存儲(chǔ)資源
parameters: 相當(dāng)于自定義配置,自定義一些存儲(chǔ)屬性
reclaimPolicy:設(shè)置volume釋放后,pv的動(dòng)作,Delete or Retain
通過(guò)聲明不同stroageclass可以管理多種類型的存儲(chǔ)比如說(shuō)ceph,glusterfs等等。
表示一段已分配的存儲(chǔ),可以是文件系統(tǒng),也可以是裸塊,云存儲(chǔ)的云盤(pán)或者文件系統(tǒng)映射到Kubernetes 就是一個(gè)PersistentVolume。
用戶存儲(chǔ)的請(qǐng)求,可以請(qǐng)求特定的容量大小和訪問(wèn)模式(例如,可以以讀/寫(xiě)一次或指向多次模式掛載)。
抽象出PersistentVolumeClaim把存儲(chǔ)和管理分離,通過(guò)PersistentVolumeClaim我們可以控制訪問(wèn)存儲(chǔ)的權(quán)限,存儲(chǔ)的容量和類型。
下圖是Kubernetes使用存儲(chǔ)的一個(gè)方式:
這里衍生下Kubernetes 的一些設(shè)計(jì)理念,Kubernetes 使用聲明式的API,通過(guò)YAML聲明請(qǐng)求,并保存到etcd,這樣做的好處是把整個(gè)請(qǐng)求記錄下來(lái),對(duì)于問(wèn)題的回溯也比較方便,不用自己去記錄日志提煉請(qǐng)求。
另外Kubernetes 還提供了對(duì)于各種資源的watch Api,各種資源的crud都可以通過(guò)watch api實(shí)時(shí)的拿到對(duì)應(yīng)的YAML,這樣的設(shè)計(jì)的好處是讓Kubernetes 擁有非常好的擴(kuò)展性,通過(guò)實(shí)現(xiàn)controller 去watch各種資源的變化情況,定義該資源的crud行為。
提供一個(gè)將任意塊或者文件存儲(chǔ)系統(tǒng)對(duì)接到給容器編排系統(tǒng)(COs)上的接口標(biāo)準(zhǔn),如Kubernetes。
把存儲(chǔ)從創(chuàng)建到銷毀整個(gè)生命周期抽象成一組標(biāo)準(zhǔn)接口,Kubernetes通過(guò)對(duì)接CSI,實(shí)現(xiàn)對(duì)存儲(chǔ)整個(gè)生命周期的管理。
下圖就是CSI定義的存儲(chǔ)卷的生命周期:
上文說(shuō)道Kubernetes 對(duì)存儲(chǔ)的抽象是StorageClass,PersistentVolume ,PersistentVolumeClaim等資源CSI 則是提供一組標(biāo)準(zhǔn)接口。所以需要引入一層把Kubernetes 中的資源行為轉(zhuǎn)為CSI接口的程序,Kubernetes 提供了多個(gè)sidecar屏蔽這個(gè)過(guò)程。
這里簡(jiǎn)單科普下sidecar,一般來(lái)說(shuō),引入sdk實(shí)現(xiàn)某些功能,在編譯的時(shí)候把sdk代碼編譯進(jìn)去,更新sdk要重新發(fā)布,和工程耦合的比較緊密,sidecar則是把sdk實(shí)現(xiàn)的功能通過(guò)在pod運(yùn)行一個(gè)獨(dú)立的容器實(shí)現(xiàn),通過(guò)sidecar們提供rpc接口進(jìn)行交互,可以作為被調(diào)用方,也可以是把服務(wù)包裝起來(lái)增強(qiáng)服務(wù)功能,增加這樣子的好處是解耦,讓更新sidecar容器的版本更簡(jiǎn)單。
通過(guò)引入以下sidecar,我們可以只專注于實(shí)現(xiàn)CSI定義的接口。
external-attacher:輔助觸發(fā)ControllerPublishVolume
external-provisioner:輔助觸發(fā)Controller相關(guān)接口
node-driver-registar:輔助注冊(cè)csi插件到kubelet
external-resizer:輔助實(shí)現(xiàn)volume擴(kuò)容
external-snappshotter:輔助實(shí)現(xiàn)volume快照
livenessprobe:轉(zhuǎn)換csi prob到k8s的liveness
從官網(wǎng)給的圖我們就可以直白的看到粉紅色框的sidecar們相當(dāng)于一層膠水,把Kubernetes和csi鏈接起來(lái)。
1)PV與調(diào)度
至此我們已經(jīng)講完了Kubernetes和CSI與K8S怎么交互的,接下來(lái)講下PV與調(diào)度的關(guān)系。
在調(diào)度階段,PV的affinity 會(huì)影響Pod的調(diào)度,所以有調(diào)度需求的可以通過(guò)PV的affinity控制。
2)NodeStatgeVolume與NodePublishVolume
之前查閱資料的時(shí)候發(fā)現(xiàn)這兩個(gè)接口的說(shuō)明講的比較少。
NodeStatgeVolume的接口是把遠(yuǎn)端的云盤(pán)掛到物理機(jī)上面。NodePublishVolume的接口是把NodeStatgeVolume之后的盤(pán)掛進(jìn)容器里面。Kubernetes 在NodeStatgeVolume階段會(huì)給每個(gè)PV生成一個(gè)全局掛載點(diǎn),如下圖:
通過(guò)判斷這個(gè)掛載點(diǎn)是否掛載可以方式PV重復(fù)掛載導(dǎo)致出錯(cuò)。接下來(lái)NodePublishVolume把NodeStatgeVolume的的掛載點(diǎn)掛載的自己Pod文件夾下,最終這個(gè)Pod的掛載點(diǎn)會(huì)被掛載進(jìn)容器里面。
存儲(chǔ)容器化
存儲(chǔ)作為基礎(chǔ)組件,直接和本地盤(pán)打交道,所以我們一個(gè)要解決的事情就是如果Kubernetes 管理本地盤(pán)。
kubernetes管理本地盤(pán)
通過(guò)官方提供的local-static-provisioner自動(dòng)生成LocalPersistentVolume管理磁盤(pán)。
LocalPersistentVolume是Kubernetes提供的一種管理本地盤(pán)的資源。
通過(guò)statefulset 管理有狀態(tài)的存儲(chǔ)服務(wù), 為每個(gè)pod分配一個(gè)單獨(dú)的磁盤(pán)可以使用volumeClaimTemplates給每個(gè)pod生成唯一的pvc,具體規(guī)則${claimNmae}-${podName},事先準(zhǔn)備好PVC 和 PV,通過(guò)Statefulset 我們就可以把我們的存儲(chǔ)托管到云上了。另外借助daemonset,可以把我們gateway模塊部署到每一個(gè)node上面。處理云存儲(chǔ)的請(qǐng)求。
1)降低運(yùn)維成本
基于Kubernetes和statfulset獲得了滾動(dòng)更新,灰度更新,健康檢查,快速擴(kuò)容等功能,只需要一組yaml文件就可以快速搭建一個(gè)集群,相比于傳統(tǒng)寫(xiě)ansible腳本部署的方式復(fù)雜度大大降低。
2)降低開(kāi)發(fā)運(yùn)維成本
由于Kubernetes把存儲(chǔ)抽象成StorageClass PersistentVolume PersistentVolumeClaim。我們可以通過(guò)他們管理我們的存儲(chǔ)資源,基于Kubernetes lable的過(guò)濾功能,可以實(shí)現(xiàn)簡(jiǎn)單的關(guān)系查詢,通過(guò)PVC與PV管理存儲(chǔ)資源,減少管理端的開(kāi)發(fā)。定位問(wèn)題也能通過(guò)POD信息快速定位到問(wèn)題機(jī)器和問(wèn)題云盤(pán)。而且接入Kubernetes生態(tài)上的prometheus后,監(jiān)控告警也能快速開(kāi)發(fā)。
3)隔離性增強(qiáng)
docker限制cpu memory使用,減少進(jìn)程之間資源互相干擾,進(jìn)一步提升資源利用率。
長(zhǎng)按訂閱更多精彩▼
如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!