日前,國外云備份服務公司Backblaze根據(jù)他們手中的歷史數(shù)據(jù),對不同品牌、容量的機械硬盤進行了一番對比,得出結論稱無論故障率還是壽命,日立最好,西數(shù)其次,希捷第三,同時還宣稱企業(yè)級硬盤反而不如消費級產(chǎn)品更可靠。
這自然引發(fā)了極大的爭論,那么各大硬盤品牌真的可以如此排序么?是否能公正地反映客觀情況?國外科技媒體TweakTown撰文詳談了他們的看法,這里我們原文編譯出來和大家分享。至于他們的結論,慢慢往后看就是了……
我們在本文中詳細記錄了Backblaze在提供可信的硬盤可靠性數(shù)據(jù)方面的失敗嘗試。閱讀之后你就了解為什么你根本不用在意這些測試結果了。
企業(yè)都有一個有趣的傾向,即無所不用其極地為公司做宣傳。作為一個存儲類產(chǎn)品的作者,我需要隨時關注最新的消息。在一周的時間里我看到有些公司每天都在吵鬧著要求獲取關注。他們的嘗試包羅萬象,有的平凡、有的熱鬧、有的甚至惹人生疑。有些公司會做任何事情以使自己從成千上萬其他公司的喧囂中脫穎而出。
就個人而言,我很高興我并沒有被分配任務去宣傳某些公司或其產(chǎn)品。在過去的幾天里我們觀察到,Backblaze的新聞頭條鋪天蓋地。
Backblaze借助其硬盤可靠性測試的博客,已經(jīng)在本周占據(jù)了所有高科技網(wǎng)站的首頁。Backblaze在不斷更新他們的博客,并努力為用戶提供每月不到5美元的無限在線備份服務。你讀到這條新聞的時候就使得Backblaze做這一切都值得了——他們已經(jīng)將信息傳達了出去。
這條最新的帖子起源于他們討論硬盤能用多久的博客,測試的結果是企業(yè)級硬盤還不如消費級硬盤可靠。毫無疑問,我們可以確信這種測試方法存在漏洞,而且漏洞大的足以開輛卡車通過了。然而,博客標題誘導公眾關注更詳細的硬盤故障率,而Backblaze總結成了最新的帖子:“我應該買什么硬盤?”
然而Backblaze或許清楚這個測試結果,但他們并沒有說明測試的環(huán)境,也沒有很好地解釋其測試數(shù)據(jù)對于典型消費者沒有過多價值的原因。既然大家的目的都是為了獲取硬盤可靠性數(shù)據(jù),那就應當對一些有疑義的測試進行進一步調查。
Backblaze采用了開源方法在其存儲架構上分享數(shù)據(jù),甚至分享原理圖,以便其用戶建立自己的Backblaze服務器。這使得我們有了進一步探究其測試數(shù)據(jù)的依據(jù)。
在2011年硬盤危機時期閱讀Backblaze發(fā)布的有關于硬盤方面的博客是很有幫助的,當時他們竭盡全力以符合成本效益的方式維持運營。很遺憾,這種敬業(yè)的態(tài)度并沒有在其評測硬盤可靠性排名的測試中體現(xiàn)出來。更嚴重的是,目前有很多科技網(wǎng)站已經(jīng)在其網(wǎng)站轉載了這項測試結果,并且聲稱這個測試結果可以作為評估硬盤可靠性的最終標準。
Backblaze使用很好看的圖表發(fā)布了測試結果,并評選出了獲勝者。從該圖表看,日立和西部數(shù)據(jù)的硬盤可靠性最高,分居前兩位,而希捷以較大劣勢位于第三位。
然而,在這種情況下,獲勝者并不是真正意義上的獲勝。讓我們發(fā)動卡車,穿過測試中的巨大漏洞,并闡述為何這份結果不應該影響消費者的購買信心。
硬盤采購
Backblaze毫不掩飾地盡可能采購最為廉價的消費級硬盤,以存儲客戶的數(shù)據(jù)。他們的目標是提供盡可能便宜的存儲服務,為客戶節(jié)約資金。他們并非不分青紅皂白地使用這些硬盤,每種硬盤型號均須經(jīng)過短期測試,以確保它能夠滿足上述目標。將這些廉價的硬盤和各種RAID以及復制方案結合在一起,就能夠安全地存儲數(shù)據(jù)。
在2011年10月份發(fā)生的泰國洪災期間,Backblaze不得不全力以赴,希望能夠采購到足夠的硬盤以維持運營。硬盤價格暴漲,但仍然供不應求,于是他們直接走上街頭四處采購,用這種極端的方式來控制損失。他們將這種做法稱為“硬盤包收(drive farming)”。
首先,他們發(fā)現(xiàn)購買外置硬盤非常經(jīng)濟有效。市場情況說明,外置硬盤通常比內置臺式機硬盤便宜。外置硬盤的外殼比較小,一般通過USB或eSATA連接。于是,Backblaze采購外置硬盤,去掉外殼,并把這個過程親切地稱為“剝殼”。就像剝玉米一樣,他們將外殼拆下來,就能夠得到可用的硬盤。
起初,他們到Fry's和Costco瘋狂搶購,直到部分員工最終被這些商店禁止繼續(xù)購買硬盤。于是他們進一步擴大范圍,召集朋友和家人幫忙繼續(xù)采購硬盤,甚至制定出復雜的硬盤采購方案,以避開各種硬盤采購限制。
當這種方法開始在局部地區(qū)失去效力時,他們甚至考慮從雷德(Ryder)汽車租賃公司租來卡車,到全國各地沿途收購硬盤。
最終他們采用了眾包(crowdsourcing)的方式。只要在Costco銷售硬盤時購買到產(chǎn)品并發(fā)送給公司,Backblaze便為他們額外提供每塊硬盤5美元的獎金。
這種做法顯示出驚人的創(chuàng)造力,其目的也是為客戶實現(xiàn)最大的利益,值得稱道。不幸的是,這種做法沒有很好地創(chuàng)建出一個用于判斷硬盤可靠性的穩(wěn)定的樣品池。Backblaze也承認樣品池中的部分硬盤為返修產(chǎn)品(RMA)。
Backblaze的故障大多數(shù)發(fā)生在這些硬盤投入使用的最初幾周時間里,若考慮一下它的硬盤采購方法,便能夠理解為什么是這種情況。一般的故障涉及到大量的存儲設備,故障最有可能發(fā)生在產(chǎn)品生命周期的初期和末期階段,但可以斷言的是,他們的硬盤采購方法導致了其結果。
很有趣的是,Backblaze獲得了500萬美元的風險投資。不久,Costco規(guī)定每人限購買五塊外置硬盤。即便有了大規(guī)模的投資,Backblaze仍然采用其老辦法來采購硬盤。正如他們自己所說,積習難改。
不幸的是,他們采購的這些硬盤被納入了故障率的計算之中。
機箱
Backblaze還把自己的創(chuàng)造力延伸到了服務器機架領域。他們設計了專門的storage pod enclosures,并在網(wǎng)絡上共享其原理圖。這種值得稱贊的信息共享做法也有助于解讀他們的“故障率”數(shù)據(jù)。
上述storage pod目前已升級到3.0版本,前兩個版本進行升級都是為了解決大量的設計問題,其中最顯著的問題就是震動。
震動是硬盤的大敵,會導致各種組件出現(xiàn)嚴重的磨損,甚至會影響性能。一般的臺式機硬盤在穩(wěn)定的環(huán)境中基本不存在震動,因此在設計的時候抗震性也稍差。企業(yè)級硬盤設計的主要差別之一就是抗震技術。抗震技術使得硬盤能夠抵抗服務器機箱和機架的磨損,并良好地運行。
一個機箱中安裝太多的硬盤會增大震動量。Backblaze在每個機箱中安裝了45塊硬盤,以便將存儲密度最大化。硬盤最初都是遭受服務器內部鄰近硬盤震動的影響,而一旦放置于機架中,硬盤還會遭受其它服務器震動的影響。這樣就會產(chǎn)生震動的“完美風暴”,使用消費級硬盤就會導致可怕的故障率,Backblaze的數(shù)據(jù)便是最好的證明。
難怪Backblaze不斷地改善其機箱,以便更好地抗震:早期型號僅采用尼龍墊片減震。進一步分析其數(shù)據(jù),我們可以發(fā)現(xiàn),最早投入使用的硬盤,其故障率最高。原因很簡單:這些硬盤安裝在1.0版本的存儲機箱里,震動問題非常嚴重。
不幸的是,這些硬盤絕大部分來自于希捷的產(chǎn)品線。由于機箱問題導致這些硬盤的年故障率高達25.4%,如果真是這樣,那么希捷就不用做生意了。
Backblaze披露的故障率數(shù)據(jù)沒有考慮大量的信息。將所有硬盤按照不同的機箱版本進行分組,才是負責任的傳遞信息方法。我們確信,較早的硬盤沒有安裝在最好的機箱中,3.0版本的機箱直到2013年2月份才推出。
環(huán)境
影響硬盤壽命的另外一個因素是溫度。溫度和濕度的變化可對硬盤壽命造成影響。通讀Backblaze博客,有一條關于服務器機架溫度的評論吸引了我的注意;
……過去三年,我們觀察到:1)機架頂部pod中的硬盤溫度相比較低層硬盤平均高出三度;2)Pod中心的硬盤溫度相比邊界硬盤高出五度;3)各pod無需所有六部風扇——只用兩部風扇,硬盤便可維持建議的運行溫度;4)熱量與硬盤故障無關(至少在storage pod中是這樣)。
Backblaze聲稱硬盤溫度不影響硬盤壽命。這與硬盤制造商等許多其他人的觀察相悖。硬盤運行需保持在一定的溫度范圍內是有原因的。盡管Backblaze的硬盤可能在這些范圍之內,但若溫度不同則無法直接進行比較,不在溫度范圍之內的硬盤就更不用說了。
再次重申,缺乏有針對性的信息就不可能做出真實的結論,測試環(huán)境的參差不齊毀掉了Backblaze的數(shù)據(jù)。
工作負載
每塊硬盤均經(jīng)過精心設計,以便在目標使用環(huán)境中提供嚴格規(guī)定的服務水平。這種指導原則不僅決定著硬盤的設計,而且還決定著采用的組件類型。最經(jīng)濟有效的硬盤設計目的是在目標環(huán)境中提供適當?shù)男阅芎蛪勖瑑H此而已。采用超出硬盤工作負載需求的強大組件是一種浪費,并且會增加不必要的成本。這種設計效率還意味著硬盤在非目標環(huán)境下更加容易發(fā)生故障。
Backblaze始終在市場上采購最便宜的硬盤,而不管其額定的工作負載,然后將它們應用于最嚴酷的環(huán)境之中,這樣勢必會破壞硬盤,導致故障率比自然狀態(tài)下更高。這只能說明這些硬盤的工程設計精準地滿足既定目的,僅此而已。
另外一個問題就是:即使工作負載不同,也強行在硬盤之間進行直接的比較。實際上,若沒有實施同樣的工作負載,則無法將同型號的硬盤進行比較,而比較不同的型號和制造商更是荒謬絕倫。沒有辦法計算硬盤旋轉了多少次,也沒有辦法計算硬盤處理了多少次不同類型的數(shù)據(jù)請求。
隨機數(shù)據(jù)需要硬盤磁頭更多的運動,因此會給精密的硬盤磁頭造成更多的磨損。旋轉加速減速,進入以及從各種休眠狀態(tài)恢復,時間長了也會給硬盤造成不同程度的磨損。工作負載的分配沒有真正的邏輯性,更不用說環(huán)境了,所以直接比較硬盤是行不通的。
只有一件事是確定的,那就是:硬盤處理的工作負載遠遠超過了它們的設計極限。
最終思考
Backblaze的數(shù)據(jù)不應該影響任何消費者的購買決策,無論他們購買什么類型的硬盤。無數(shù)的變量,以及缺少證明文件,導致其結果不可靠。即使對于獲勝者來說,測試結果也是不利的,故障率遠遠超出了實際的觀察情況。大家應該置疑,若在實際的情形中質保返修率如此高,那么這些公司怎么能夠生存下來?
我們論及了Backblaze比較方法的一些最顯而易見的漏洞,但實際上還有更多的漏洞存在,比如樣本數(shù)量。每種型號的硬盤數(shù)量各不相同,而部分壞的批次可能進入了樣本池,進一步扭曲了評測數(shù)據(jù)。
最好的例子來自于他們自己的博客帖子“企業(yè)級硬盤:事實還是虛構?”這篇博客帖子顯示,Backblaze將可能是同一批次采購的368塊企業(yè)級硬盤與14719塊消費級硬盤進行了比較。除了壞的批次可能扭曲了測試數(shù)據(jù)之外,Backblaze還承認他們將硬盤用于不同的機箱、溫度和工作負載。這樣導致他們的數(shù)據(jù)基本上是毫無價值的比較,不過配上一個引人注目的標題之后,這些數(shù)據(jù)確實達到了嘩眾取寵的目的。
我十分欣賞Backblaze的發(fā)展歷程。他們決心為客戶提供卓越的價值,并為此目標而竭盡全力。他們的博客帖子詳細說明了他們采取的各種極端措施,讀起來真是引人入勝,我相信他們享受挑戰(zhàn)。他們的storage pod設計新穎,經(jīng)過了廣泛的現(xiàn)場測試和改善,能夠提供有吸引力的每GB價格。
但是,他們用簡單的圖表進行虛假的展示,這樣發(fā)布的數(shù)據(jù)刺激到了堅守原則的我。
硬盤制造商在研發(fā)方面花費了數(shù)十億美元,他們的實驗室就是為了打造和測量其存儲解決方案的可靠性和耐用性。Backblaze的環(huán)境則剛好相反。我做夢都想不到能夠在這樣差的條件下開展硬盤的可靠性研究和比較。
很難相信他們開展策劃、召集會議、制定流程,通過各種可笑的途徑采購最便宜的硬盤,把它們安裝在各種不同(有時還存在缺陷)的機箱里,堆垛起來,讓它們來應付完全不同的工作負載和環(huán)境條件……而做這些都是為了測試硬盤的可靠性。
這當然不是目的,但有些人會這樣解讀這些數(shù)據(jù)。在我看來,媒體宣傳的魅力戰(zhàn)勝了常識,Backblaze發(fā)布了這些數(shù)據(jù),用花哨的標題吸引了眾多眼球。