硬盤品牌可靠性排行榜?認(rèn)真你就輸了
日前,國外云備份服務(wù)公司Backblaze根據(jù)他們手中的歷史數(shù)據(jù),對(duì)不同品牌、容量的機(jī)械硬盤進(jìn)行了一番對(duì)比,得出結(jié)論稱無論故障率還是壽命,日立最好,西數(shù)其次,希捷第三,同時(shí)還宣稱企業(yè)級(jí)硬盤反而不如消費(fèi)級(jí)產(chǎn)品更可靠。
這自然引發(fā)了極大的爭(zhēng)論,那么各大硬盤品牌真的可以如此排序么?是否能公正地反映客觀情況?國外科技媒體TweakTown撰文詳談了他們的看法,這里我們?cè)木幾g出來和大家分享。至于他們的結(jié)論,慢慢往后看就是了……
我們?cè)诒疚闹性敿?xì)記錄了Backblaze在提供可信的硬盤可靠性數(shù)據(jù)方面的失敗嘗試。閱讀之后你就了解為什么你根本不用在意這些測(cè)試結(jié)果了。
企業(yè)都有一個(gè)有趣的傾向,即無所不用其極地為公司做宣傳。作為一個(gè)存儲(chǔ)類產(chǎn)品的作者,我需要隨時(shí)關(guān)注最新的消息。在一周的時(shí)間里我看到有些公司每天都在吵鬧著要求獲取關(guān)注。他們的嘗試包羅萬象,有的平凡、有的熱鬧、有的甚至惹人生疑。有些公司會(huì)做任何事情以使自己從成千上萬其他公司的喧囂中脫穎而出。
就個(gè)人而言,我很高興我并沒有被分配任務(wù)去宣傳某些公司或其產(chǎn)品。在過去的幾天里我們觀察到,Backblaze的新聞?lì)^條鋪天蓋地。
Backblaze借助其硬盤可靠性測(cè)試的博客,已經(jīng)在本周占據(jù)了所有高科技網(wǎng)站的首頁。Backblaze在不斷更新他們的博客,并努力為用戶提供每月不到5美元的無限在線備份服務(wù)。你讀到這條新聞的時(shí)候就使得Backblaze做這一切都值得了——他們已經(jīng)將信息傳達(dá)了出去。
這條最新的帖子起源于他們討論硬盤能用多久的博客,測(cè)試的結(jié)果是企業(yè)級(jí)硬盤還不如消費(fèi)級(jí)硬盤可靠。毫無疑問,我們可以確信這種測(cè)試方法存在漏洞,而且漏洞大的足以開輛卡車通過了。然而,博客標(biāo)題誘導(dǎo)公眾關(guān)注更詳細(xì)的硬盤故障率,而Backblaze總結(jié)成了最新的帖子:“我應(yīng)該買什么硬盤?”
然而Backblaze或許清楚這個(gè)測(cè)試結(jié)果,但他們并沒有說明測(cè)試的環(huán)境,也沒有很好地解釋其測(cè)試數(shù)據(jù)對(duì)于典型消費(fèi)者沒有過多價(jià)值的原因。既然大家的目的都是為了獲取硬盤可靠性數(shù)據(jù),那就應(yīng)當(dāng)對(duì)一些有疑義的測(cè)試進(jìn)行進(jìn)一步調(diào)查。
Backblaze采用了開源方法在其存儲(chǔ)架構(gòu)上分享數(shù)據(jù),甚至分享原理圖,以便其用戶建立自己的Backblaze服務(wù)器。這使得我們有了進(jìn)一步探究其測(cè)試數(shù)據(jù)的依據(jù)。
在2011年硬盤危機(jī)時(shí)期閱讀Backblaze發(fā)布的有關(guān)于硬盤方面的博客是很有幫助的,當(dāng)時(shí)他們竭盡全力以符合成本效益的方式維持運(yùn)營(yíng)。很遺憾,這種敬業(yè)的態(tài)度并沒有在其評(píng)測(cè)硬盤可靠性排名的測(cè)試中體現(xiàn)出來。更嚴(yán)重的是,目前有很多科技網(wǎng)站已經(jīng)在其網(wǎng)站轉(zhuǎn)載了這項(xiàng)測(cè)試結(jié)果,并且聲稱這個(gè)測(cè)試結(jié)果可以作為評(píng)估硬盤可靠性的最終標(biāo)準(zhǔn)。
Backblaze使用很好看的圖表發(fā)布了測(cè)試結(jié)果,并評(píng)選出了獲勝者。從該圖表看,日立和西部數(shù)據(jù)的硬盤可靠性最高,分居前兩位,而希捷以較大劣勢(shì)位于第三位。
然而,在這種情況下,獲勝者并不是真正意義上的獲勝。讓我們發(fā)動(dòng)卡車,穿過測(cè)試中的巨大漏洞,并闡述為何這份結(jié)果不應(yīng)該影響消費(fèi)者的購買信心。
硬盤采購
Backblaze毫不掩飾地盡可能采購最為廉價(jià)的消費(fèi)級(jí)硬盤,以存儲(chǔ)客戶的數(shù)據(jù)。他們的目標(biāo)是提供盡可能便宜的存儲(chǔ)服務(wù),為客戶節(jié)約資金。他們并非不分青紅皂白地使用這些硬盤,每種硬盤型號(hào)均須經(jīng)過短期測(cè)試,以確保它能夠滿足上述目標(biāo)。將這些廉價(jià)的硬盤和各種RAID以及復(fù)制方案結(jié)合在一起,就能夠安全地存儲(chǔ)數(shù)據(jù)。
在2011年10月份發(fā)生的泰國洪災(zāi)期間,Backblaze不得不全力以赴,希望能夠采購到足夠的硬盤以維持運(yùn)營(yíng)。硬盤價(jià)格暴漲,但仍然供不應(yīng)求,于是他們直接走上街頭四處采購,用這種極端的方式來控制損失。他們將這種做法稱為“硬盤包收(drive farming)”。
首先,他們發(fā)現(xiàn)購買外置硬盤非常經(jīng)濟(jì)有效。市場(chǎng)情況說明,外置硬盤通常比內(nèi)置臺(tái)式機(jī)硬盤便宜。外置硬盤的外殼比較小,一般通過USB或eSATA連接。于是,Backblaze采購?fù)庵糜脖P,去掉外殼,并把這個(gè)過程親切地稱為“剝殼”。就像剝玉米一樣,他們將外殼拆下來,就能夠得到可用的硬盤。
起初,他們到Fry's和Costco瘋狂搶購,直到部分員工最終被這些商店禁止繼續(xù)購買硬盤。于是他們進(jìn)一步擴(kuò)大范圍,召集朋友和家人幫忙繼續(xù)采購硬盤,甚至制定出復(fù)雜的硬盤采購方案,以避開各種硬盤采購限制。
當(dāng)這種方法開始在局部地區(qū)失去效力時(shí),他們甚至考慮從雷德(Ryder)汽車租賃公司租來卡車,到全國各地沿途收購硬盤。
最終他們采用了眾包(crowdsourcing)的方式。只要在Costco銷售硬盤時(shí)購買到產(chǎn)品并發(fā)送給公司,Backblaze便為他們額外提供每塊硬盤5美元的獎(jiǎng)金。
這種做法顯示出驚人的創(chuàng)造力,其目的也是為客戶實(shí)現(xiàn)最大的利益,值得稱道。不幸的是,這種做法沒有很好地創(chuàng)建出一個(gè)用于判斷硬盤可靠性的穩(wěn)定的樣品池。Backblaze也承認(rèn)樣品池中的部分硬盤為返修產(chǎn)品(RMA)。
Backblaze的故障大多數(shù)發(fā)生在這些硬盤投入使用的最初幾周時(shí)間里,若考慮一下它的硬盤采購方法,便能夠理解為什么是這種情況。一般的故障涉及到大量的存儲(chǔ)設(shè)備,故障最有可能發(fā)生在產(chǎn)品生命周期的初期和末期階段,但可以斷言的是,他們的硬盤采購方法導(dǎo)致了其結(jié)果。
很有趣的是,Backblaze獲得了500萬美元的風(fēng)險(xiǎn)投資。不久,Costco規(guī)定每人限購買五塊外置硬盤。即便有了大規(guī)模的投資,Backblaze仍然采用其老辦法來采購硬盤。正如他們自己所說,積習(xí)難改。
不幸的是,他們采購的這些硬盤被納入了故障率的計(jì)算之中。
機(jī)箱
Backblaze還把自己的創(chuàng)造力延伸到了服務(wù)器機(jī)架領(lǐng)域。他們?cè)O(shè)計(jì)了專門的storage pod enclosures,并在網(wǎng)絡(luò)上共享其原理圖。這種值得稱贊的信息共享做法也有助于解讀他們的“故障率”數(shù)據(jù)。
上述storage pod目前已升級(jí)到3.0版本,前兩個(gè)版本進(jìn)行升級(jí)都是為了解決大量的設(shè)計(jì)問題,其中最顯著的問題就是震動(dòng)。
震動(dòng)是硬盤的大敵,會(huì)導(dǎo)致各種組件出現(xiàn)嚴(yán)重的磨損,甚至?xí)绊懶阅?。一般的臺(tái)式機(jī)硬盤在穩(wěn)定的環(huán)境中基本不存在震動(dòng),因此在設(shè)計(jì)的時(shí)候抗震性也稍差。企業(yè)級(jí)硬盤設(shè)計(jì)的主要差別之一就是抗震技術(shù)??拐鸺夹g(shù)使得硬盤能夠抵抗服務(wù)器機(jī)箱和機(jī)架的磨損,并良好地運(yùn)行。
一個(gè)機(jī)箱中安裝太多的硬盤會(huì)增大震動(dòng)量。Backblaze在每個(gè)機(jī)箱中安裝了45塊硬盤,以便將存儲(chǔ)密度最大化。硬盤最初都是遭受服務(wù)器內(nèi)部鄰近硬盤震動(dòng)的影響,而一旦放置于機(jī)架中,硬盤還會(huì)遭受其它服務(wù)器震動(dòng)的影響。這樣就會(huì)產(chǎn)生震動(dòng)的“完美風(fēng)暴”,使用消費(fèi)級(jí)硬盤就會(huì)導(dǎo)致可怕的故障率,Backblaze的數(shù)據(jù)便是最好的證明。
難怪Backblaze不斷地改善其機(jī)箱,以便更好地抗震:早期型號(hào)僅采用尼龍墊片減震。進(jìn)一步分析其數(shù)據(jù),我們可以發(fā)現(xiàn),最早投入使用的硬盤,其故障率最高。原因很簡(jiǎn)單:這些硬盤安裝在1.0版本的存儲(chǔ)機(jī)箱里,震動(dòng)問題非常嚴(yán)重。
不幸的是,這些硬盤絕大部分來自于希捷的產(chǎn)品線。由于機(jī)箱問題導(dǎo)致這些硬盤的年故障率高達(dá)25.4%,如果真是這樣,那么希捷就不用做生意了。
Backblaze披露的故障率數(shù)據(jù)沒有考慮大量的信息。將所有硬盤按照不同的機(jī)箱版本進(jìn)行分組,才是負(fù)責(zé)任的傳遞信息方法。我們確信,較早的硬盤沒有安裝在最好的機(jī)箱中,3.0版本的機(jī)箱直到2013年2月份才推出。
環(huán)境
影響硬盤壽命的另外一個(gè)因素是溫度。溫度和濕度的變化可對(duì)硬盤壽命造成影響。通讀Backblaze博客,有一條關(guān)于服務(wù)器機(jī)架溫度的評(píng)論吸引了我的注意;
……過去三年,我們觀察到:1)機(jī)架頂部pod中的硬盤溫度相比較低層硬盤平均高出三度;2)Pod中心的硬盤溫度相比邊界硬盤高出五度;3)各pod無需所有六部風(fēng)扇——只用兩部風(fēng)扇,硬盤便可維持建議的運(yùn)行溫度;4)熱量與硬盤故障無關(guān)(至少在storage pod中是這樣)。
Backblaze聲稱硬盤溫度不影響硬盤壽命。這與硬盤制造商等許多其他人的觀察相悖。硬盤運(yùn)行需保持在一定的溫度范圍內(nèi)是有原因的。盡管Backblaze的硬盤可能在這些范圍之內(nèi),但若溫度不同則無法直接進(jìn)行比較,不在溫度范圍之內(nèi)的硬盤就更不用說了。
再次重申,缺乏有針對(duì)性的信息就不可能做出真實(shí)的結(jié)論,測(cè)試環(huán)境的參差不齊毀掉了Backblaze的數(shù)據(jù)。
工作負(fù)載
每塊硬盤均經(jīng)過精心設(shè)計(jì),以便在目標(biāo)使用環(huán)境中提供嚴(yán)格規(guī)定的服務(wù)水平。這種指導(dǎo)原則不僅決定著硬盤的設(shè)計(jì),而且還決定著采用的組件類型。最經(jīng)濟(jì)有效的硬盤設(shè)計(jì)目的是在目標(biāo)環(huán)境中提供適當(dāng)?shù)男阅芎蛪勖?,僅此而已。采用超出硬盤工作負(fù)載需求的強(qiáng)大組件是一種浪費(fèi),并且會(huì)增加不必要的成本。這種設(shè)計(jì)效率還意味著硬盤在非目標(biāo)環(huán)境下更加容易發(fā)生故障。
Backblaze始終在市場(chǎng)上采購最便宜的硬盤,而不管其額定的工作負(fù)載,然后將它們應(yīng)用于最嚴(yán)酷的環(huán)境之中,這樣勢(shì)必會(huì)破壞硬盤,導(dǎo)致故障率比自然狀態(tài)下更高。這只能說明這些硬盤的工程設(shè)計(jì)精準(zhǔn)地滿足既定目的,僅此而已。
另外一個(gè)問題就是:即使工作負(fù)載不同,也強(qiáng)行在硬盤之間進(jìn)行直接的比較。實(shí)際上,若沒有實(shí)施同樣的工作負(fù)載,則無法將同型號(hào)的硬盤進(jìn)行比較,而比較不同的型號(hào)和制造商更是荒謬絕倫。沒有辦法計(jì)算硬盤旋轉(zhuǎn)了多少次,也沒有辦法計(jì)算硬盤處理了多少次不同類型的數(shù)據(jù)請(qǐng)求。
隨機(jī)數(shù)據(jù)需要硬盤磁頭更多的運(yùn)動(dòng),因此會(huì)給精密的硬盤磁頭造成更多的磨損。旋轉(zhuǎn)加速減速,進(jìn)入以及從各種休眠狀態(tài)恢復(fù),時(shí)間長(zhǎng)了也會(huì)給硬盤造成不同程度的磨損。工作負(fù)載的分配沒有真正的邏輯性,更不用說環(huán)境了,所以直接比較硬盤是行不通的。
只有一件事是確定的,那就是:硬盤處理的工作負(fù)載遠(yuǎn)遠(yuǎn)超過了它們的設(shè)計(jì)極限。
最終思考
Backblaze的數(shù)據(jù)不應(yīng)該影響任何消費(fèi)者的購買決策,無論他們購買什么類型的硬盤。無數(shù)的變量,以及缺少證明文件,導(dǎo)致其結(jié)果不可靠。即使對(duì)于獲勝者來說,測(cè)試結(jié)果也是不利的,故障率遠(yuǎn)遠(yuǎn)超出了實(shí)際的觀察情況。大家應(yīng)該置疑,若在實(shí)際的情形中質(zhì)保返修率如此高,那么這些公司怎么能夠生存下來?
我們論及了Backblaze比較方法的一些最顯而易見的漏洞,但實(shí)際上還有更多的漏洞存在,比如樣本數(shù)量。每種型號(hào)的硬盤數(shù)量各不相同,而部分壞的批次可能進(jìn)入了樣本池,進(jìn)一步扭曲了評(píng)測(cè)數(shù)據(jù)。
最好的例子來自于他們自己的博客帖子“企業(yè)級(jí)硬盤:事實(shí)還是虛構(gòu)?”這篇博客帖子顯示,Backblaze將可能是同一批次采購的368塊企業(yè)級(jí)硬盤與14719塊消費(fèi)級(jí)硬盤進(jìn)行了比較。除了壞的批次可能扭曲了測(cè)試數(shù)據(jù)之外,Backblaze還承認(rèn)他們將硬盤用于不同的機(jī)箱、溫度和工作負(fù)載。這樣導(dǎo)致他們的數(shù)據(jù)基本上是毫無價(jià)值的比較,不過配上一個(gè)引人注目的標(biāo)題之后,這些數(shù)據(jù)確實(shí)達(dá)到了嘩眾取寵的目的。
我十分欣賞Backblaze的發(fā)展歷程。他們決心為客戶提供卓越的價(jià)值,并為此目標(biāo)而竭盡全力。他們的博客帖子詳細(xì)說明了他們采取的各種極端措施,讀起來真是引人入勝,我相信他們享受挑戰(zhàn)。他們的storage pod設(shè)計(jì)新穎,經(jīng)過了廣泛的現(xiàn)場(chǎng)測(cè)試和改善,能夠提供有吸引力的每GB價(jià)格。
但是,他們用簡(jiǎn)單的圖表進(jìn)行虛假的展示,這樣發(fā)布的數(shù)據(jù)刺激到了堅(jiān)守原則的我。
硬盤制造商在研發(fā)方面花費(fèi)了數(shù)十億美元,他們的實(shí)驗(yàn)室就是為了打造和測(cè)量其存儲(chǔ)解決方案的可靠性和耐用性。Backblaze的環(huán)境則剛好相反。我做夢(mèng)都想不到能夠在這樣差的條件下開展硬盤的可靠性研究和比較。
很難相信他們開展策劃、召集會(huì)議、制定流程,通過各種可笑的途徑采購最便宜的硬盤,把它們安裝在各種不同(有時(shí)還存在缺陷)的機(jī)箱里,堆垛起來,讓它們來應(yīng)付完全不同的工作負(fù)載和環(huán)境條件……而做這些都是為了測(cè)試硬盤的可靠性。
這當(dāng)然不是目的,但有些人會(huì)這樣解讀這些數(shù)據(jù)。在我看來,媒體宣傳的魅力戰(zhàn)勝了常識(shí),Backblaze發(fā)布了這些數(shù)據(jù),用花哨的標(biāo)題吸引了眾多眼球。