數(shù)據(jù)科學50年,數(shù)據(jù)科學家是否依然是21世紀最性感的職業(yè)?
在如今的數(shù)據(jù)智能時代,幾乎所有人都相信“數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而絕大部分則隱藏在表面之下?!碑敂?shù)據(jù)的價值依然在冰山之下隱藏,外面的世界便彌漫著對數(shù)據(jù)的渴望。
一些新的職業(yè)成為數(shù)據(jù)海洋里的新星,“數(shù)據(jù)科學家”無疑是最亮的之一,它被譽為21世紀最性感的職業(yè),但是近年來隨著平民數(shù)據(jù)科學家的發(fā)展,有人指出數(shù)據(jù)科學家將要消失,也有國外相關(guān)人士建議不要去選數(shù)據(jù)科學家這個職業(yè),數(shù)據(jù)科學家還是21世紀最性感的職業(yè)嗎?
數(shù)據(jù)科學五十年仍是少年
數(shù)據(jù)科學家泛指數(shù)據(jù)科學的從業(yè)者,追溯數(shù)據(jù)科學家的源頭可以到數(shù)據(jù)科學誕生的1966年,當時Peter Naur提出"數(shù)據(jù)科學"(“DataScience”起初叫"datalogy "),用來代替"計算機科學"。1996年,International Federation of Classification Societies (IFCS)國際會議召開。數(shù)據(jù)科學一詞首次出現(xiàn)在會議(Data Science, classification, and related methods)標題里。
在2000年代中期數(shù)據(jù)科學家職位開始出現(xiàn),2009年Natahn Yau指出數(shù)據(jù)科學家是是采用科學方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師,數(shù)據(jù)科學家集技術(shù)專家與數(shù)量分析師的角色于一身。
實際上大數(shù)據(jù)和數(shù)據(jù)科學在內(nèi)的整個數(shù)據(jù)行業(yè)最初都是由Google、Facebook、Twitter等互聯(lián)網(wǎng)巨頭驅(qū)動,現(xiàn)在仍然如此。總部位于歐洲的JetBrains是國際知名軟件開發(fā)工具提供商,其產(chǎn)品經(jīng)理Andrey Cheptsov認為互聯(lián)網(wǎng)巨頭能夠推動數(shù)據(jù)行業(yè)的發(fā)展首先有所需求、并有能力進行大規(guī)模有效處理數(shù)據(jù),其主要業(yè)務模型從核心上取決于自身處理大規(guī)模數(shù)據(jù)的效率。
隨著大數(shù)據(jù)行業(yè)的發(fā)展,數(shù)據(jù)科學家成為了職場新星,更是被財富雜志譽為21世紀最性感的職業(yè)。但是數(shù)據(jù)科學家在初期成長也并非一帆風順,根據(jù)商業(yè)智能公司SiSense在2012 年左右的一項報告,在接受調(diào)查的全球400位數(shù)據(jù)科學家和數(shù)據(jù)分析人士中,59%的數(shù)據(jù)科學家在從業(yè)六年后都另謀高就。盡管該職業(yè)的報酬豐厚,其中超過半數(shù)表示對職業(yè)安全性的擔憂。
彼時麥肯錫等咨詢公司力挺數(shù)據(jù)科學家,堅信數(shù)據(jù)科學家是當今和未來稀缺的資源。隨著智能手機的普及移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)價值越發(fā)凸顯,數(shù)據(jù)科學家水漲船高。LinkedIn 發(fā)布的《2017 年美國新興工作崗位報告》中指出,“自 2012 年以來,數(shù)據(jù)科學家的職位增長了 650% 以上”且“數(shù)百家企業(yè)都在招聘這些職位”。
國內(nèi)近幾年也有互聯(lián)網(wǎng)公司近幾年開始逐步設(shè)立獨立的數(shù)據(jù)科學(DataScience)團隊,推動公司向數(shù)據(jù)驅(qū)動發(fā)展。進入21世紀20年代,數(shù)據(jù)科學家成為更稀缺的資源,很多人也依然相信它還是21世紀最性感的職業(yè)。
不過榮譽傍身的新星也有“暗淡”的一面,2017年有研究指出數(shù)據(jù)科學家成為離職率最高的職位之一,通常他們每周都會花費一定的時間尋找新工作。日前仍然有數(shù)據(jù)科學家從業(yè)者勸諫后來者不要入坑,可謂是冰火兩重天,何以至此?
數(shù)據(jù)科學五十年依舊是少年模樣,就如同“AI”這個名詞在1956年出現(xiàn)到如今60多年才有初步落地,數(shù)據(jù)科學是一個綜合性的學科,國內(nèi)外很多從業(yè)者認為數(shù)據(jù)科學依然是探索性的工作,管理層對 “數(shù)據(jù)科學” 的含義往往沒有達成共識。
雖然已經(jīng)經(jīng)過至少10多年的發(fā)展,現(xiàn)在可能受限于業(yè)務,沒有辦法生搬硬套一個角色框架給數(shù)據(jù)科學家,企業(yè)也容易將數(shù)據(jù)科學家和數(shù)據(jù)工程師混淆。JetBrains產(chǎn)品經(jīng)理Maria Khalusova認為“數(shù)據(jù)科學家”和“數(shù)據(jù)工程師”這兩種職位角色在行業(yè)中還是相當新的,也正因此,通常沒有明確的職責劃分?!拔覀兛吹皆谀承┕局杏蓴?shù)據(jù)科學家承擔的職責,在其他公司中這些職責卻由數(shù)據(jù)工程師承擔。另一個越來越常見的新角色是機器學習工程師,但也是同樣的情況,他們也經(jīng)常與數(shù)據(jù)工程師發(fā)生重疊?!盡aria Khalusova在接受IT168采訪時指出。
數(shù)據(jù)科學家VS數(shù)據(jù)工程師
新的技術(shù)融入產(chǎn)業(yè)和社會必然會帶來一場職業(yè)的辭舊迎新,這個過程并沒有那么快速。
“從技術(shù)角度來看,數(shù)據(jù)科學在某些情況下的實踐似乎還不如傳統(tǒng)軟件開發(fā)成熟。企業(yè)可能會面臨以下挑戰(zhàn):建立可重現(xiàn)的機器學習管道,對數(shù)據(jù)和模型進行版本控制以進行審核,與快速發(fā)展的技術(shù)保持同步。”Maria Khalusova指出。
數(shù)據(jù)科學家和數(shù)據(jù)工程師的角色兩者有許多共同的特點和共技能。這些重疊的技能包括處理和操作大數(shù)據(jù)集、應用數(shù)據(jù)的編程技能、數(shù)據(jù)分析技能以及對系統(tǒng)操作的總體熟練程度。不過兩者還是有很大的不同。在筆者之前翻譯的文章中也強調(diào)了數(shù)據(jù)科學家和數(shù)據(jù)工程師不可能合二為一,為了從數(shù)據(jù)中獲得價值,大多數(shù)企業(yè)組織都需要數(shù)據(jù)科學和數(shù)據(jù)工程,由于相關(guān)技能有很大差異,二者合體也不太現(xiàn)實。企業(yè)組織可能需要多個數(shù)據(jù)科學家和數(shù)據(jù)工程師,但兩者之間的比例很少是1:1。對于大多數(shù)企業(yè)組織來說,擁有更多的數(shù)據(jù)工程師比數(shù)據(jù)科學家更有意義。因為數(shù)據(jù)科學家已經(jīng)學會處理大量的干凈數(shù)據(jù),但是從許多不同系統(tǒng)獲得大量的干凈數(shù)據(jù)更難也更具挑戰(zhàn)。與抽象數(shù)據(jù)模型和對數(shù)據(jù)集運行分析相比,移動和清理數(shù)據(jù)的工作量更大。
從技能需求方面也有很大的差異,Maria Khalusova認為,廣義上來講,數(shù)據(jù)工程師通常必須熟悉那些為分布式數(shù)據(jù)處理而設(shè)計的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他們要具備數(shù)據(jù)倉庫和數(shù)據(jù)湖方面的經(jīng)驗,因為他們需要能夠熟練地使用Java、Scala和Kotlin等JVM語言,并且必須能夠創(chuàng)建和維護大多數(shù)數(shù)據(jù)基礎(chǔ)架構(gòu)。
數(shù)據(jù)科學家則需要了解Python語言、R語言或兩者兼具,并且能夠獲取數(shù)據(jù)(例如使用SQL或Spark)、整理數(shù)據(jù)、分析數(shù)據(jù)、訓練預測模型并將數(shù)據(jù)驅(qū)動的洞察提供給利益相關(guān)者。他們需要在統(tǒng)計方法和機器學習方法(包括深度學習)方面有扎實的基礎(chǔ)。在某些公司中,數(shù)據(jù)科學家也會參與機器學習模型的部署。
盡管現(xiàn)在很多企業(yè)對于數(shù)據(jù)科學家和數(shù)據(jù)工程師職位的劃分還不是那么明確,但是未來更加精細化的分工是大勢所趨。當然這并不會一蹴而就,新職位不是憑空而來,需要一個漸進的過程和角色轉(zhuǎn)化,國內(nèi)某頭部互聯(lián)網(wǎng)公司兩年前正式組建了數(shù)據(jù)科學團隊,而團隊成員以前散落在集團各業(yè)務部門,其中有數(shù)據(jù)分析師也有大數(shù)據(jù)專家,而數(shù)據(jù)科學團隊成立以來,讓數(shù)據(jù)驅(qū)動業(yè)務運營,更加高效。
國內(nèi)另一家頭部直播平臺正在招聘數(shù)據(jù)科學家職位,從招聘信息描述來看,數(shù)據(jù)科學家屬于其數(shù)據(jù)分析部,其工作職責包括分析和挖掘海量數(shù)據(jù),發(fā)現(xiàn)用戶行為模式與規(guī)律,優(yōu)化用戶體驗,提升社區(qū)粘性,通過數(shù)據(jù)分析和經(jīng)濟運籌模型優(yōu)化,為公司不同的運營團隊制定目標和策略,關(guān)注落地結(jié)果等。而職業(yè)技能要求需要熟練使用SQL、Python或R語言進行數(shù)據(jù)分析、可視化呈現(xiàn),具有統(tǒng)計學和概率論基礎(chǔ),擅長數(shù)據(jù)分析,了解常見規(guī)統(tǒng)計機器學習模型及使用等,其需求與Maria Khalusova所說基本一致。
有分析稱近來對AI、機器學習(ML)、非ML預測分析和“大數(shù)據(jù)”的應用,使得數(shù)據(jù)科學家的需求有了顯著的增長。不過從這一點來看數(shù)據(jù)科學是不是21世紀最性感的職業(yè)還為時尚早,公民數(shù)據(jù)科學家的到來讓不少人為此打上了大大的問號。
全民數(shù)據(jù)科學家時代到來?
早在2013年就有專家指出對數(shù)據(jù)科學家的“炒作”該結(jié)束了,他們認為大數(shù)據(jù)走入了一個新的階段。企業(yè)用戶利用直覺和互動的UI來從大數(shù)據(jù)中獲取價值,從而避免依賴于數(shù)據(jù)科學家,應該讓大數(shù)據(jù)變得更加民主。
市場競爭加劇,外部環(huán)境和技術(shù)飛速變化,需要業(yè)務和技術(shù)更高效聯(lián)動更及時有效了解用戶需求,明確企業(yè)自身現(xiàn)狀,為企業(yè)決策提供幫助。隨著大數(shù)據(jù)技術(shù)不斷走向成熟,技術(shù)應用的門檻也不斷降低,復雜的數(shù)據(jù)統(tǒng)計可能仍限于數(shù)據(jù)科學家,一些可視化分析工具和敏捷的大數(shù)據(jù)工具可以讓業(yè)務人員能夠輕松上手,大數(shù)據(jù)民主化也催生出了公民數(shù)據(jù)科學家這個概念。
根據(jù)Gartner 的定義,公民數(shù)據(jù)科學家(Citizen Data Scientist )“能夠創(chuàng)建或生成采用高級診斷分析或預測和規(guī)范功能的模型,但本職工作并不屬于統(tǒng)計和分析領(lǐng)域”,近兩年關(guān)于公民數(shù)據(jù)科學家概念也異?;鸨?。
有人指出公民數(shù)據(jù)科學家發(fā)展預示著全民數(shù)據(jù)科學家時代的到來,數(shù)據(jù)科學家可能會退出舞臺,也有人認為數(shù)字化智能時代,數(shù)據(jù)的增長和數(shù)據(jù)價值的重要性日益凸顯,企業(yè)對數(shù)據(jù)科學家和數(shù)據(jù)分析人員需求不斷擴大,而人才缺口較大,公民數(shù)據(jù)科學家是暫時填補供需之間不平衡的一個方案,數(shù)據(jù)科學家仍然是最亮的星。
可以看到近兩年技術(shù)民主化成了熱點,不只是公民數(shù)據(jù)科學家,還有公民開發(fā)者,在Gartner的定義中公民開發(fā)者是指在傳統(tǒng)IT渠道之外的創(chuàng)建應用程序的業(yè)務用戶,低代碼/零代碼的發(fā)展促使了全民開發(fā)者時代的到來。公民開發(fā)者無法替代開發(fā)者,同樣的公民數(shù)據(jù)科學家也無法替代數(shù)據(jù)科學家。術(shù)業(yè)有專攻,數(shù)據(jù)科學家會向著更高階和更專業(yè)的數(shù)據(jù)分析方向發(fā)展,正如Gartner所說,公民數(shù)據(jù)科學家可以彌合企業(yè)用戶采用的主流自助型分析和數(shù)據(jù)科學家掌握的高級分析技術(shù)之間的鴻溝。
目前,越來越多的企業(yè)構(gòu)建數(shù)據(jù)文化,將自身打造成數(shù)據(jù)驅(qū)動的組織?!坝捎诩夹g(shù)公司蘊含的技術(shù)文化,也使他們(互聯(lián)網(wǎng)企業(yè))自然地在數(shù)據(jù)工程和數(shù)據(jù)科學方面更加領(lǐng)先。今天,我們看到越來越多的公司開始接受技術(shù)文化,因為這已成為競爭優(yōu)勢所在。與此同時,同樣的事情也發(fā)生在傳統(tǒng)產(chǎn)業(yè)。今天,各行各業(yè)的許多公司都開始嘗試將其業(yè)務轉(zhuǎn)到互聯(lián)網(wǎng)上。可以這樣說,未來所有公司遲早都會成為互聯(lián)網(wǎng)公司,也都會更加注重技術(shù)文化?!盇ndrey Cheptsov指出,與此同時軟件開發(fā)越來越多地涉及到數(shù)據(jù),這意味著軟件不再僅僅是一組算法,而是一組經(jīng)過數(shù)據(jù)訓練的模型。收集和處理這些數(shù)據(jù),并進行建模和部署機器學習(ML)模型,已成為軟件開發(fā)的一部分。
技術(shù)不斷迭代進化,新的職位也會出現(xiàn),員工與企業(yè)組織都面臨著新的挑戰(zhàn)與機遇。很多人都愿意相信數(shù)據(jù)科學家未來可期,只是不要把職業(yè)角色和應該掌握的技能標簽化,畢竟需求是動態(tài)變化的,是需要個體與時代彼此適應的。