可以自學大數(shù)據(jù)技術嗎
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
第一個階段的學習內容主要以基礎知識為主,涉及到操作系統(tǒng)(Linux)、數(shù)據(jù)庫、編程語言(Java、Python、Scala)、算法設計基礎以及統(tǒng)計學基礎知識。這個階段的學習內容雖然比較多,但是整體的難度并不算高。對于沒有任何計算機基礎的初學者來說,應該在這個學習階段多做一些實驗,如果在學習的初期能夠得到一定的指導,會節(jié)省一定的時間。
第二個階段的學習內容主要以大數(shù)據(jù)平臺為主,對于初學者來說最好選擇開源的大數(shù)據(jù)平臺,比如Hadoop、Spark就是不錯的選擇,初學者并不建議選擇學習商用大數(shù)據(jù)平臺,因為商用平臺的封裝性比較好,不容易分析其中的技術細節(jié)。實際上,當前很多商用大數(shù)據(jù)平臺都是基于Hadoop和Spark構建的。
第三個階段的學習內容主要以實踐為主,實踐的內容主要分為三個大的任務,分別是大數(shù)據(jù)應用開發(fā)、大數(shù)據(jù)分析和大數(shù)據(jù)運維,由于不同的崗位往往需要掌握不同的實踐能力,所以掌握更多的實踐知識能夠在一定程度上提升自己的崗位適應能力。
大數(shù)據(jù)是一個以系統(tǒng)方式分析數(shù)據(jù),并且從數(shù)據(jù)中提取信息所屬領域的技術。在數(shù)據(jù)越來越龐大,越來越雜的情況下,相比傳統(tǒng)的數(shù)據(jù)處理軟件件,大數(shù)據(jù)有著數(shù)據(jù)儲存、分析、共享、傳輸?shù)葍?yōu)勢。首先,自學大數(shù)據(jù)技術是完全可以的,但是由于大數(shù)據(jù)的知識體系涉及到的內容比較多,而且具有一定的難度,所以大數(shù)據(jù)的學習應該分為以上三個階段來完成。由于大數(shù)據(jù)知識體系比較龐大,而且大數(shù)據(jù)與具體的應用場景有密切的聯(lián)系,所以自學大數(shù)據(jù)技術很難獲得一個持續(xù)且深入的過程,因此建議在學習的中后期應該找一個實習崗位。
來源:IT人劉俊明