當(dāng)前位置:首頁(yè) > 技術(shù)學(xué)院 > 技術(shù)前線
[導(dǎo)讀] SLO和SLA是大家常見(jiàn)的兩個(gè)名詞:服務(wù)等級(jí)目標(biāo)和服務(wù)等級(jí)協(xié)議。 云計(jì)算時(shí)代,各大云服務(wù)提供商都發(fā)布有自己服務(wù)的SLA條款,比如Amazon的EC2和S3服務(wù)都有相應(yīng)的SLA條款。這些大公司的SLA看上去如此的高達(dá)上,一般是怎么定義出來(lái)的呢?本文就嘗試從技術(shù)角度解剖一下SLA的制定過(guò)程。 說(shuō)SLA不能不提SLO,這個(gè)是眾所周知的,但是還有一個(gè)概念知道的人就不多了,那就是SLI(Service Level Indicator),定義一個(gè)可執(zhí)行的SLA,好的SLO和SLI是必不可少的。 再有就是SLI/SLO/SLA都是和服務(wù)聯(lián)系在一起的,脫離了服務(wù)這三個(gè)概念就沒(méi)有什么意義了。

Service

什么是服務(wù)?

簡(jiǎn)單說(shuō)就是一切提供給客戶的有用功能都可以稱為服務(wù)。

服務(wù)一般會(huì)由服務(wù)提供者提供,提供這個(gè)有用功能的組織被稱為服務(wù)提供者,通常是人加上軟件,軟件的運(yùn)行需要計(jì)算資源,為了能對(duì)外提供有用的功能軟件可能會(huì)有對(duì)其他軟件系統(tǒng)的依賴。

客戶是使用服務(wù)提供者提供的服務(wù)的人或公司。

SLI

SLI是經(jīng)過(guò)仔細(xì)定義的測(cè)量指標(biāo),它根據(jù)不同系統(tǒng)特點(diǎn)確定要測(cè)量什么,SLI的確定是一個(gè)非常復(fù)雜的過(guò)程。

SLI的確定需要回答以下幾個(gè)問(wèn)題:

要測(cè)量的指標(biāo)是什么?

測(cè)量時(shí)的系統(tǒng)狀態(tài)?

如何匯總處理測(cè)量的指標(biāo)?

測(cè)量指標(biāo)能否準(zhǔn)確描述服務(wù)質(zhì)量?

測(cè)量指標(biāo)的可靠度(trustworthy)?

1. 常見(jiàn)的測(cè)量指標(biāo)有以下幾個(gè)方面:

性能

響應(yīng)時(shí)間(latency)

吞吐量(throughput)

請(qǐng)求量(qps)

實(shí)效性(freshness)

可用性

運(yùn)行時(shí)間(uptime)

故障時(shí)間/頻率

可靠性

質(zhì)量

準(zhǔn)確性(accuracy)

正確性(correctness)

完整性(completeness)

覆蓋率(coverage)

相關(guān)性(relevance)

內(nèi)部指標(biāo)

隊(duì)列長(zhǎng)度(queue length)

內(nèi)存占用(RAM usage)

因素人

響應(yīng)時(shí)間(time to response)

修復(fù)時(shí)間(time to fix)

修復(fù)率(fraction fixed)

下面通過(guò)一個(gè)例子來(lái)說(shuō)明一下:hotmail的downtime SLI

錯(cuò)誤率(error rate)計(jì)算的是服務(wù)返回給用戶的error總數(shù)

如果錯(cuò)誤率大于X%,就算是服務(wù)down了,開(kāi)始計(jì)算downtime

如果錯(cuò)誤率持續(xù)超過(guò)Y分鐘,這個(gè)downtime就會(huì)被計(jì)算在內(nèi)

間斷性的小于Y分鐘的downtime是不被計(jì)算在內(nèi)的。

2. 測(cè)量時(shí)的系統(tǒng)狀態(tài),在什么情況下測(cè)量會(huì)嚴(yán)重影響測(cè)量的結(jié)果

測(cè)量異常(badly-formed)請(qǐng)求,還是失敗(fail)請(qǐng)求還是超時(shí)請(qǐng)求(timeout)

測(cè)量時(shí)的系統(tǒng)負(fù)載(是否最大負(fù)載)

測(cè)量的發(fā)起位置,服務(wù)器端還是客戶端

測(cè)量的時(shí)間窗口(僅工作日、還是一周7天、是否包括計(jì)劃內(nèi)的維護(hù)時(shí)間段)

3. 如何匯總處理測(cè)量的指標(biāo)?

計(jì)算的時(shí)間區(qū)間是什么:是一個(gè)滾動(dòng)時(shí)間窗口,還是簡(jiǎn)單的按照月份計(jì)算

使用平均值還是百分位值,比如:某服務(wù)X的ticket處理響應(yīng)時(shí)間SLI的

測(cè)量指標(biāo):統(tǒng)計(jì)所有成功解決請(qǐng)求,從用戶創(chuàng)建ticket到問(wèn)題被解決的時(shí)間

怎么測(cè)量:用ticket自帶的時(shí)間戳,統(tǒng)計(jì)所有用戶創(chuàng)建的ticket

什么情況下的測(cè)量:只包括工作時(shí)間,不包含法定假日

用于SLI的數(shù)據(jù)指標(biāo):以一周為滑動(dòng)窗口,95%分位的解決時(shí)間

4. 測(cè)量指標(biāo)能否準(zhǔn)確描述服務(wù)質(zhì)量?

性能:時(shí)效性、是否有偏差

準(zhǔn)確性:精度、覆蓋率、數(shù)據(jù)穩(wěn)定性

完整性:數(shù)據(jù)丟失、無(wú)效數(shù)據(jù)、異常(outlier)數(shù)據(jù)

5. 測(cè)量指標(biāo)的可靠度

是否服務(wù)提供者和客戶都認(rèn)可

是否可被獨(dú)立驗(yàn)證,比如三方機(jī)構(gòu)

客戶端還是服務(wù)器端測(cè)量,取樣間隔

錯(cuò)誤請(qǐng)求是如何計(jì)算的

SLO

SLO(服務(wù)等級(jí)目標(biāo))指定了服務(wù)所提供功能的一種期望狀態(tài)。SLO里面應(yīng)該包含什么呢?所有能夠描述服務(wù)應(yīng)該提供什么樣功能的信息。

服務(wù)提供者用它來(lái)指定系統(tǒng)的預(yù)期狀態(tài);開(kāi)發(fā)人員編寫代碼來(lái)實(shí)現(xiàn);客戶依賴于SLO進(jìn)行商業(yè)判斷。SLO里沒(méi)有提到,如果目標(biāo)達(dá)不到會(huì)怎么樣。

SLO是用SLI來(lái)描述的,一般描述為:

比如以下SLO:

每分鐘平均qps > 100k/s

99% 訪問(wèn)延遲 < 500ms

99% 每分鐘帶寬 > 200MB/s

設(shè)置SLO時(shí)的幾個(gè)最佳實(shí)踐:

指定計(jì)算的時(shí)間窗口

使用一致的時(shí)間窗口(XX小時(shí)滾動(dòng)窗口、季度滾動(dòng)窗口)

要有一個(gè)免責(zé)條款,比如:95%的時(shí)間要能夠達(dá)到SLO

如果Service是第一次設(shè)置SLO,可以遵循以下原則

測(cè)量系統(tǒng)當(dāng)前狀態(tài)

設(shè)置預(yù)期(expectations),而不是保證(guarantees)

初期的SLO不適合作為服務(wù)質(zhì)量的強(qiáng)化工具

改進(jìn)SLO

設(shè)置更低的響應(yīng)時(shí)間、更改的吞吐量等

保持一定的安全緩沖

內(nèi)部用的SLO要高于對(duì)外宣稱的SLO

不要超額完成

定期的downtime來(lái)使SLO不超額完成

設(shè)置SLO時(shí)的目標(biāo)依賴于系統(tǒng)的不同狀態(tài)(conditions),根據(jù)不同狀態(tài)設(shè)置不同的SLO:總SLO = service1.SLO1 weight1 + service2.SLO2 weight2 + …

為什么要有SLO,設(shè)置SLO的好處是什么呢?

對(duì)于客戶而言,是可預(yù)期的服務(wù)質(zhì)量,可以簡(jiǎn)化客戶端的系統(tǒng)設(shè)計(jì)

對(duì)于服務(wù)提供者而言

可預(yù)期的服務(wù)質(zhì)量

更好的取舍成本/收益

更好的風(fēng)險(xiǎn)控制(當(dāng)資源受限的時(shí)候)

故障時(shí)更快的反應(yīng),采取正確措施

SLO設(shè)好了,怎么保證能夠達(dá)到目標(biāo)呢?

需要一個(gè)控制系統(tǒng)來(lái):

監(jiān)控/測(cè)量SLIs

對(duì)比檢測(cè)到的SLIs值是否達(dá)到目標(biāo)

如果需要,修證目標(biāo)或者修正系統(tǒng)以滿足目標(biāo)需要

實(shí)施目標(biāo)的修改或者系統(tǒng)的修改

該控制系統(tǒng)需要重復(fù)的執(zhí)行以上動(dòng)作,以形成一個(gè)標(biāo)準(zhǔn)的反饋環(huán)路,不斷的衡量和改進(jìn)SLO/服務(wù)本身。

我們討論了目標(biāo)以及目標(biāo)是怎么測(cè)量的,還討論了控制機(jī)制來(lái)達(dá)到設(shè)置的目標(biāo),但是如果因?yàn)槟承┰颍O(shè)置的目標(biāo)達(dá)不到該怎么辦呢?

也許是因?yàn)榇罅康男略鲐?fù)載;也許是因?yàn)榈讓右蕾嚥荒苓_(dá)到標(biāo)稱的SLO而影響上次服務(wù)的SLO。這就需要SLA出場(chǎng)了。

SLA

SLA是一個(gè)涉及2方的合約,雙方必須都要同意并遵守這個(gè)合約。當(dāng)需要對(duì)外提供服務(wù)時(shí),SLA是非常重要的一個(gè)服務(wù)質(zhì)量信號(hào),需要產(chǎn)品和法務(wù)部門的同時(shí)介入。

SLA用一個(gè)簡(jiǎn)單的公式來(lái)描述就是: SLA = SLO + 后果

SLO不能滿足的一系列動(dòng)作,可以是部分不能達(dá)到

比如:達(dá)到響應(yīng)時(shí)間SLO+未達(dá)到可用性SLO

對(duì)動(dòng)作的具體實(shí)施

需要一個(gè)通用的貨幣來(lái)獎(jiǎng)勵(lì)/懲罰,比如:錢

SLA是一個(gè)很好的工具,可以用來(lái)幫助合理配置資源。一個(gè)有明確SLA的服務(wù)最理想的運(yùn)行狀態(tài)是:增加額外資源來(lái)改進(jìn)系統(tǒng)所帶來(lái)的收益小于把該資源投給其他服務(wù)所帶來(lái)的收益。

一個(gè)簡(jiǎn)單的例子就是某服務(wù)可用性從99.9%提高到99.99%所需要的資源和帶來(lái)的收益之比,是決定該服務(wù)是否應(yīng)該提供4個(gè)9的重要依據(jù)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉