對于“高質量數據”至今并沒有明確定義,但大體可以解譯為:具有代表性與準確性,且能夠為使用群體創(chuàng)造價值的數據。以個人用戶為例,將日常數據活動進行統(tǒng)計之后,可以協(xié)助進行時間安排與管理;而以企業(yè)為例,結合內部業(yè)務信息,與對外的系列企業(yè)活動數據之后,可以提供更準確的市場規(guī)劃建議,指明未來發(fā)展方向。
收集與整合
那么,首先要做的便是積累數據,然后整合。目前,許多線上媒體平臺都依賴數據的收集工作,代表應用就是“個性化推薦”,能夠及時地追蹤用戶的數據活動,根據不同的指標因素進行群體歸納,從而依據推薦算法來預測、匹配用戶的潛在需求,完成產品與服務的推介。
在電子商務逐漸普及的情況下,我們常常習慣在線上平臺進行消費,不管是瀏覽新聞、觀賞電影,還是音樂分享、組隊游戲,這些皆屬于數據活動。由于個人喜好差異,我們所進行的數據活動肯定有所不同,但是往往發(fā)現系統(tǒng)推薦的“猜你喜歡”竟十分吻合。
其實,推薦算法就是通過收集與整合龐大數據體量,去尋找群體的共同點,提取用戶不同維度的特征值,進而挖掘用戶的潛在數據活動。因源于此,很多統(tǒng)計報告便誕生了,例如90后女生最喜歡的音樂風格,或者是北京人與福建人的購物消費差異,以及貓系男友最討厭的電視劇……
而線上相親平臺其實也是如此,只不過數據是由訪問者主動提交的,通過輸入自己與理想型伴侶的信息后,再轉由各個企業(yè)后臺進行信息匹配。而日常的用戶消費,往往是被動式地信息收集,比如聽完音樂之后,系統(tǒng)才能獲取用戶的偏好數據。但總歸皆逃不過數據收集與整合,不可否認數據的收集與整合工作是非常重要的,也是保障數據應用的首要基礎。
篩選高質數據
收集與整合數據完畢之后,就會面臨篩選問題,這點對于企業(yè)來說尤為關鍵,其中最常出現的問題在于如何處理重復數據與刪除數據。
重復數據會對企業(yè)有何不良影響呢?首先是存儲成本的增加,企業(yè)所配置的存儲空間造成浪費;其次是,大量的重復數據還有可能導致數據分析準確性的下降,從而影響企業(yè)的判斷,造成決策失誤。以傳統(tǒng)的問卷調查為例,假設想要調查某某小區(qū)居民對社區(qū)環(huán)境建設是否滿意,會將十幾份問卷交由同一位居民進行填寫嗎?答案肯定是:否。
隨著企業(yè)向數字化轉型邁進,數據將不斷進行積累,就會帶來以上的憂慮,而此時配置智能化的存儲解決方案就尤為重要,可以幫助企業(yè)解決相應問題。以戴爾SC7020F高效存儲方案來說,內置Data Progression可優(yōu)化驅動器層和RAID級別,自動辨別長時間被擱置的數據,將其移至成本較低的存儲空間中,還能智能進行重復數據的刪除與壓縮,為企業(yè)節(jié)省不少的數據運營與管理成本,篩選出高質量數據。
那么,刪除數據為何也會對篩選高質數據產生影響呢?要知道的是,目前大部分的互聯網基礎硬件設施還是由傳統(tǒng)電力負責供應,這就意味企業(yè)需要做好應對地震、海嘯等等自然災害,或者是人為活動造成的電力中斷影響,如果沒有做足準備,可能企業(yè)所有的數據資產就會瞬間丟失。
因為無法預測未來,所以企業(yè)更加需要對未來可能發(fā)生的情況全面考量,SC7020F內附Live Volume便可在本地和遠程陣列上的同步卷執(zhí)行無中斷自動故障轉移,確保企業(yè)業(yè)務連續(xù)性,保證數據應用正常運行。香港新天域互聯專注香港服務器租用托管,以及境內外ICT服務,我們深知目前數據對企業(yè)的重要性,所以引入SC7020F存儲解決方案,希望助力企業(yè)應對意外,從而保護高質數據資產。
物盡其用
當企業(yè)完成了以上處理數據的步驟,就該輪到發(fā)揮數據作用的時刻了,也就是物盡其用。尤其是大數據的應用,例如人工智能(AI)、物聯網(IoT)都對數據處理有著更高的要求,同時還要維持更低延遲性,確保實時的數據反饋,這些就是始于高質數據的應用,通過數據收集與整合,完成預測、分類等等的復雜人工智能模型構建,提高AI的數據處理能力,進而拓展至其他應用。