CDN的原理以及其中的一些技術(shù)
需求
CDN,全稱Content Delivery Network,主要作用是為源站減少訪問(wèn)壓力的同時(shí),為客戶端提供更快速的內(nèi)容響應(yīng)。除此之外,CDN還能對(duì)源站進(jìn)行安全防護(hù)。 其實(shí)真正為CDN付費(fèi)的是源站,所以CDN的用戶其實(shí)是源站,例如新浪微博,youku視頻,淘寶網(wǎng)啊之類的。而客戶端,是CDN的用戶的用戶。 所以CDN是夾在源站和源站的用戶之間的,以下稱客戶端均指源站的用戶。
工作原理
簡(jiǎn)單的說(shuō),CDN的工作原理就是將您源站的資源緩存到位于全國(guó)各地的CDN節(jié)點(diǎn)上,用戶請(qǐng)求資源時(shí),就近返回節(jié)點(diǎn)上緩存的資源,而不需要每個(gè)用戶的請(qǐng)求都回您的源站獲取,避免網(wǎng)絡(luò)擁塞、分擔(dān)源站壓力,保證用戶訪問(wèn)資源的速度和體驗(yàn)。
架構(gòu)圖
使用CDN后的http請(qǐng)求處理流程如下圖:
傳統(tǒng)網(wǎng)站訪問(wèn)過(guò)程
要說(shuō)CDN的工作原理,就得先說(shuō)說(shuō)Internet資源的訪問(wèn)過(guò)程。傳統(tǒng)的來(lái)說(shuō),在瀏覽器訪問(wèn)網(wǎng)站應(yīng)當(dāng)有這么一些步驟:
在瀏覽器鍵入網(wǎng)址www.taobao.com瀏覽器請(qǐng)求dns服務(wù)器,查詢到www.taobao.com對(duì)應(yīng)的IP瀏覽器向服務(wù)器發(fā)起TCP連接瀏覽器通過(guò)建立的TCP連接發(fā)送HTTP協(xié)議報(bào)文服務(wù)器向?yàn)g覽器發(fā)送頁(yè)面內(nèi)容瀏覽器將頁(yè)面展現(xiàn)出來(lái)
對(duì)于上面提到的第2步,其實(shí)還是有需要來(lái)更加詳細(xì)的說(shuō)明一下dns的解析過(guò)程,因?yàn)樗荂DN能工作的基本條件。
DNS工作過(guò)程
DNS的工作過(guò)程容易被人忽略,一般只知道DNS的輸入是一個(gè)網(wǎng)址,輸出的是一個(gè)IP,在這里我也正好給自己總結(jié)記錄一下。 DNS的協(xié)議主要是基于UDP的,所以dns server的qps一般都是很驚人的,比web server(http是基于tcp的)的qps是高出幾個(gè)量級(jí)的。有個(gè)基本概念就是dns的記錄類型,常見(jiàn)的dns記錄類型有A,AAAA,CNAME等。中A記錄是域名到IPV4地址的;AAAA記錄是域名到IPV6地址的;CNAME記錄類似于查詢過(guò)程中的轉(zhuǎn)發(fā),意思是你去問(wèn)問(wèn)這個(gè)個(gè)人,他管這事。好的,下面繼續(xù)說(shuō)說(shuō)DNS的工作過(guò)程。
在瀏覽器鍵入www.taobao.com
,其實(shí)真正dns協(xié)議里用到的是www.taobao.com.
最后還有一個(gè)點(diǎn),可能是因?yàn)槊烙^等原因,一般都不顯示查詢本地緩存(host文件或者是瀏覽器的緩存)中有沒(méi)有該域名對(duì)應(yīng)的記錄,有的話就直接用了向運(yùn)營(yíng)商的DNS服務(wù)器發(fā)起dns解析的請(qǐng)求,一般稱運(yùn)營(yíng)商的DNS服務(wù)器為local dns
local dns會(huì)查詢本地的緩存,local dns設(shè)置的緩存時(shí)間是有講究的,過(guò)長(zhǎng)過(guò)短都不好。另外local dns的查詢是運(yùn)營(yíng)商的事,這里面水很深,外部不可控local dns如果沒(méi)有緩存,會(huì)把域名從右往左掃描,依次請(qǐng)求對(duì)應(yīng)的服務(wù)器,例如對(duì)于域名www.taobao.com.
,先去問(wèn)負(fù)責(zé).
的根域名服務(wù)器,就是傳說(shuō)中全球只有幾臺(tái)的那些服務(wù)器,他們會(huì)答復(fù).com
是誰(shuí)管理的,然后local
dns又去找管理.com
的服務(wù)器(假設(shè)名字為S1),去問(wèn)問(wèn)taobao.com
是誰(shuí)管,一般來(lái)說(shuō),在S1查到的記錄是一條cname記錄(阿里畢竟大公司,自己管理自己旗下的域名),然后就轉(zhuǎn)到了阿里自己的DNS服務(wù)器上來(lái)了,一般稱之為權(quán)威服務(wù)器權(quán)威服務(wù)器是阿里自己建的,然后根據(jù)公司內(nèi)部的一些配置啊,調(diào)整啊,查到www.taobao.com.
對(duì)應(yīng)的服務(wù)器是誰(shuí),返回一個(gè)IP地址local dns緩存這個(gè)IP地址,并且回復(fù)瀏覽器瀏覽器和對(duì)應(yīng)的IP地址的服務(wù)器簡(jiǎn)歷TCP連接,發(fā)送HTTP報(bào)文
買過(guò)域名的朋友都知道,假如你在萬(wàn)網(wǎng)買了cstdlib.com
,然后你想啟用一個(gè)二級(jí)域名go.cstdlib.com
,那么你要去萬(wàn)網(wǎng)的控制臺(tái)(已經(jīng)和阿里云合并)設(shè)置一條A記錄的解析,將go.cstdlib.com
指向你想要的IP。每次增加二級(jí)域名的過(guò)程都是這樣子。那么,如果你知道了DNS的解析過(guò)程,你可以這么做:
在服務(wù)器D1上起一個(gè)dns server,作為cstdlib.com的dns權(quán)威服務(wù)器在萬(wàn)網(wǎng)的控制臺(tái)新增一條CNAME記錄,將cstdlib.com的解析轉(zhuǎn)到D1來(lái)D1想返回什么IP就返回什么IP
這樣一來(lái),一切盡在掌控,畢竟D1是你的,而且以后你再也不用去萬(wàn)網(wǎng)的控制臺(tái)了,這就是自建DNS服務(wù)器。
CDN選擇優(yōu)質(zhì)節(jié)點(diǎn)
回到正題,CDN如何為用戶選擇時(shí)延更小的節(jié)點(diǎn)。這次不以訪問(wèn)淘寶為例了,因?yàn)榘⒗镉凶约旱腃DN,要是以訪問(wèn)淘寶為例,容易混淆CDN的提供者和源站。 這次舉例以新浪微博為源站,假設(shè)微博使用了阿里的CDN(并不是假設(shè),新聞在這里),那么阿里CDN會(huì)告訴微博,你要我給你加速一張圖片是吧,那你就把這個(gè)圖片解析到我的服務(wù)器來(lái)(可以CNAME,也可以直接寫阿里CDN的url),那么,阿里CDN的dns權(quán)威服務(wù)器,會(huì)收到這么一個(gè)解析請(qǐng)求,“請(qǐng)告訴我,新浪微博的1.png的節(jié)點(diǎn)在哪”
。這時(shí)CDN系統(tǒng)就要大展身手了。
假設(shè)我們現(xiàn)在是阿里CDN的dns權(quán)威服務(wù)器,有人問(wèn)我們“新浪微博的1.png的節(jié)點(diǎn)在哪”
,那我會(huì)這么做:先看看問(wèn)我的這個(gè)人IP是多少(回憶一下dns解析的過(guò)程,我們看到的應(yīng)該是local
dns的IP),然后根據(jù)這個(gè)IP查到他是哪里的,北京還是廣州,上海還是深圳。如果是北京,那好,我就給你返回北京的節(jié)點(diǎn)的地址;如果是上海,那我就給你返回上海的節(jié)點(diǎn)的地址,這樣就實(shí)現(xiàn)了就近訪問(wèn)。
在把IP地址對(duì)應(yīng)到地理位置的過(guò)程中,需要用到IP庫(kù),阿里CDN的IP地址庫(kù)賤賤的,因?yàn)榘⒗顲DN的負(fù)責(zé)人叔度在ArchSummit架構(gòu)師峰會(huì)上說(shuō),他們可以用淘寶的包裹記錄來(lái)校準(zhǔn),真是機(jī)智。
當(dāng)然,就近只是一個(gè)要考慮的因素之一,還有很多因素需要考慮的,例如網(wǎng)絡(luò)成本,流量分布,源站負(fù)載等。這是個(gè)很復(fù)雜的過(guò)程,我只是舉了一個(gè)直觀的方面來(lái)說(shuō)。
CDN減少源站壓力
剛才說(shuō)了CDN是如何選擇優(yōu)質(zhì)節(jié)點(diǎn)的,那么對(duì)于客戶端,算是有個(gè)交代了。所以接下來(lái)考慮怎么給源站一個(gè)交代:減小源站壓力。如果每一個(gè)用戶請(qǐng)求都讓他直接去源站拿的話,那源站將會(huì)承受巨大的壓力,所以要考慮為源站提供一個(gè)HTTP的緩存,通過(guò)提升緩存的命中率來(lái)減小源站的壓力。
比如剛才第一個(gè)用戶請(qǐng)求了1.png,那么CDN先把這張圖片緩存(緩存簡(jiǎn)單可以認(rèn)為是一個(gè)哈希表,key是url,value是response)起來(lái),下次再有人要1.png,就直接返回給他,從而減少回源流量。
HTTP緩存服務(wù)器是一個(gè)很復(fù)雜的功能。下面還是貼一張叔度在ArchSummit架構(gòu)師峰會(huì)上用到的PPT吧,來(lái)說(shuō)一下這里面大概的技術(shù),阿里的HTTP緩存服務(wù)器叫Swfit,正好和蘋果的那個(gè)語(yǔ)言重名了。
圖中是一個(gè)CDN節(jié)點(diǎn),用戶的請(qǐng)求從LVS(LVS是一個(gè)四層的負(fù)載均衡組件,作者是章文嵩博士,現(xiàn)任阿里云CTO)的入口來(lái),先由LVS做一次4層的負(fù)載均衡,然后轉(zhuǎn)到一臺(tái)Tengine(阿里在nginx的基礎(chǔ)上開(kāi)發(fā)的服務(wù)器)上,Tengine做一致性hash,選擇一臺(tái)Swift(阿里使用的HTTP緩存服務(wù)器),然后Swift去做緩存回源。接下來(lái)仍然貼一張叔度在ArchSummit架構(gòu)師峰會(huì)上用到的PPT,一起看看Swift的架構(gòu)。
首先可以看到,Swift是一個(gè)多線程的程序,每個(gè)線程起一個(gè)epoll來(lái)充分發(fā)揮多核的處理能力。并且盡量減少線程間的上下文切換,一個(gè)請(qǐng)求盡量在一個(gè)線程處理。然后圖里面還能看到內(nèi)存緩存,SSD緩存,SATA緩存。據(jù)叔度說(shuō),Swift會(huì)有熱點(diǎn)淘汰的機(jī)制,將熱文件放在內(nèi)存里,次熱文件放在SSD上,最后才是SATA盤,然后會(huì)有熱點(diǎn)淘汰和提升機(jī)制。
同時(shí)叔度在ArchSummit峰會(huì)上還提出,Tengine和Swift是通過(guò)Spdy協(xié)議來(lái)通信的,從而優(yōu)化HTTP的效率。所以,CDN在技術(shù)上還是很有深度的,網(wǎng)絡(luò),IO,多線程,TCP/IP,HTTP這些后臺(tái)常見(jiàn)的名詞在這里面體現(xiàn)的淋漓盡致。
邊邊角角
其實(shí)在DNS查詢過(guò)程有一個(gè)這樣的問(wèn)題,權(quán)威服務(wù)器接收請(qǐng)求的時(shí)候,只能得到local DNS的IP,并不知道client IP。這是個(gè)很蛋疼的東西,所以google提出了EDNS的協(xié)議,會(huì)帶上client IP,但是其實(shí)不怎么實(shí)用,因?yàn)檫@相當(dāng)于大家緩存DNS查詢結(jié)果的時(shí)候多了一維client IP,一維數(shù)組變二維數(shù)組,簡(jiǎn)直是內(nèi)存的災(zāi)難。所以,大家平常就別用8.8.8.8這樣的DNS服務(wù)器了,不然別人以為你是在美國(guó),然后用美國(guó)的源站和你通信,肯定慢成狗啊。
總結(jié)
總結(jié)一下CDN的工作原理:通過(guò)權(quán)威dns服務(wù)器來(lái)實(shí)現(xiàn)優(yōu)質(zhì)節(jié)點(diǎn)的選擇,通過(guò)緩存來(lái)減少源站的壓力。
推薦閱讀
最后推薦一下阿里CDN的負(fù)責(zé)人叔度在ArchSummit上的演講,把阿里CDN架構(gòu)講的很清楚。本文很多內(nèi)容來(lái)自該演講。