怎樣做可以創(chuàng)造高質(zhì)量的數(shù)據(jù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
對(duì)于“高質(zhì)量數(shù)據(jù)”至今并沒(méi)有明確定義,但大體可以解譯為:具有代表性與準(zhǔn)確性,且能夠?yàn)槭褂萌后w創(chuàng)造價(jià)值的數(shù)據(jù)。以個(gè)人用戶(hù)為例,將日常數(shù)據(jù)活動(dòng)進(jìn)行統(tǒng)計(jì)之后,可以協(xié)助進(jìn)行時(shí)間安排與管理;而以企業(yè)為例,結(jié)合內(nèi)部業(yè)務(wù)信息,與對(duì)外的系列企業(yè)活動(dòng)數(shù)據(jù)之后,可以提供更準(zhǔn)確的市場(chǎng)規(guī)劃建議,指明未來(lái)發(fā)展方向。
收集與整合
那么,首先要做的便是積累數(shù)據(jù),然后整合。目前,許多線上媒體平臺(tái)都依賴(lài)數(shù)據(jù)的收集工作,代表應(yīng)用就是“個(gè)性化推薦”,能夠及時(shí)地追蹤用戶(hù)的數(shù)據(jù)活動(dòng),根據(jù)不同的指標(biāo)因素進(jìn)行群體歸納,從而依據(jù)推薦算法來(lái)預(yù)測(cè)、匹配用戶(hù)的潛在需求,完成產(chǎn)品與服務(wù)的推介。
在電子商務(wù)逐漸普及的情況下,我們常常習(xí)慣在線上平臺(tái)進(jìn)行消費(fèi),不管是瀏覽新聞、觀賞電影,還是音樂(lè)分享、組隊(duì)游戲,這些皆屬于數(shù)據(jù)活動(dòng)。由于個(gè)人喜好差異,我們所進(jìn)行的數(shù)據(jù)活動(dòng)肯定有所不同,但是往往發(fā)現(xiàn)系統(tǒng)推薦的“猜你喜歡”竟十分吻合。
其實(shí),推薦算法就是通過(guò)收集與整合龐大數(shù)據(jù)體量,去尋找群體的共同點(diǎn),提取用戶(hù)不同維度的特征值,進(jìn)而挖掘用戶(hù)的潛在數(shù)據(jù)活動(dòng)。因源于此,很多統(tǒng)計(jì)報(bào)告便誕生了,例如90后女生最喜歡的音樂(lè)風(fēng)格,或者是北京人與福建人的購(gòu)物消費(fèi)差異,以及貓系男友最討厭的電視劇……
而線上相親平臺(tái)其實(shí)也是如此,只不過(guò)數(shù)據(jù)是由訪問(wèn)者主動(dòng)提交的,通過(guò)輸入自己與理想型伴侶的信息后,再轉(zhuǎn)由各個(gè)企業(yè)后臺(tái)進(jìn)行信息匹配。而日常的用戶(hù)消費(fèi),往往是被動(dòng)式地信息收集,比如聽(tīng)完音樂(lè)之后,系統(tǒng)才能獲取用戶(hù)的偏好數(shù)據(jù)。但總歸皆逃不過(guò)數(shù)據(jù)收集與整合,不可否認(rèn)數(shù)據(jù)的收集與整合工作是非常重要的,也是保障數(shù)據(jù)應(yīng)用的首要基礎(chǔ)。
篩選高質(zhì)數(shù)據(jù)
收集與整合數(shù)據(jù)完畢之后,就會(huì)面臨篩選問(wèn)題,這點(diǎn)對(duì)于企業(yè)來(lái)說(shuō)尤為關(guān)鍵,其中最常出現(xiàn)的問(wèn)題在于如何處理重復(fù)數(shù)據(jù)與刪除數(shù)據(jù)。
重復(fù)數(shù)據(jù)會(huì)對(duì)企業(yè)有何不良影響呢?首先是存儲(chǔ)成本的增加,企業(yè)所配置的存儲(chǔ)空間造成浪費(fèi);其次是,大量的重復(fù)數(shù)據(jù)還有可能導(dǎo)致數(shù)據(jù)分析準(zhǔn)確性的下降,從而影響企業(yè)的判斷,造成決策失誤。以傳統(tǒng)的問(wèn)卷調(diào)查為例,假設(shè)想要調(diào)查某某小區(qū)居民對(duì)社區(qū)環(huán)境建設(shè)是否滿意,會(huì)將十幾份問(wèn)卷交由同一位居民進(jìn)行填寫(xiě)嗎?答案肯定是:否。
隨著企業(yè)向數(shù)字化轉(zhuǎn)型邁進(jìn),數(shù)據(jù)將不斷進(jìn)行積累,就會(huì)帶來(lái)以上的憂慮,而此時(shí)配置智能化的存儲(chǔ)解決方案就尤為重要,可以幫助企業(yè)解決相應(yīng)問(wèn)題。以戴爾SC7020F高效存儲(chǔ)方案來(lái)說(shuō),內(nèi)置Data Progression可優(yōu)化驅(qū)動(dòng)器層和RAID級(jí)別,自動(dòng)辨別長(zhǎng)時(shí)間被擱置的數(shù)據(jù),將其移至成本較低的存儲(chǔ)空間中,還能智能進(jìn)行重復(fù)數(shù)據(jù)的刪除與壓縮,為企業(yè)節(jié)省不少的數(shù)據(jù)運(yùn)營(yíng)與管理成本,篩選出高質(zhì)量數(shù)據(jù)。
那么,刪除數(shù)據(jù)為何也會(huì)對(duì)篩選高質(zhì)數(shù)據(jù)產(chǎn)生影響呢?要知道的是,目前大部分的互聯(lián)網(wǎng)基礎(chǔ)硬件設(shè)施還是由傳統(tǒng)電力負(fù)責(zé)供應(yīng),這就意味企業(yè)需要做好應(yīng)對(duì)地震、海嘯等等自然災(zāi)害,或者是人為活動(dòng)造成的電力中斷影響,如果沒(méi)有做足準(zhǔn)備,可能企業(yè)所有的數(shù)據(jù)資產(chǎn)就會(huì)瞬間丟失。
因?yàn)闊o(wú)法預(yù)測(cè)未來(lái),所以企業(yè)更加需要對(duì)未來(lái)可能發(fā)生的情況全面考量,SC7020F內(nèi)附Live Volume便可在本地和遠(yuǎn)程陣列上的同步卷執(zhí)行無(wú)中斷自動(dòng)故障轉(zhuǎn)移,確保企業(yè)業(yè)務(wù)連續(xù)性,保證數(shù)據(jù)應(yīng)用正常運(yùn)行。香港新天域互聯(lián)專(zhuān)注香港服務(wù)器租用托管,以及境內(nèi)外ICT服務(wù),我們深知目前數(shù)據(jù)對(duì)企業(yè)的重要性,所以引入SC7020F存儲(chǔ)解決方案,希望助力企業(yè)應(yīng)對(duì)意外,從而保護(hù)高質(zhì)數(shù)據(jù)資產(chǎn)。
物盡其用
當(dāng)企業(yè)完成了以上處理數(shù)據(jù)的步驟,就該輪到發(fā)揮數(shù)據(jù)作用的時(shí)刻了,也就是物盡其用。尤其是大數(shù)據(jù)的應(yīng)用,例如人工智能(AI)、物聯(lián)網(wǎng)(IoT)都對(duì)數(shù)據(jù)處理有著更高的要求,同時(shí)還要維持更低延遲性,確保實(shí)時(shí)的數(shù)據(jù)反饋,這些就是始于高質(zhì)數(shù)據(jù)的應(yīng)用,通過(guò)數(shù)據(jù)收集與整合,完成預(yù)測(cè)、分類(lèi)等等的復(fù)雜人工智能模型構(gòu)建,提高AI的數(shù)據(jù)處理能力,進(jìn)而拓展至其他應(yīng)用。