“互聯(lián)網(wǎng)+”時代廣電大數(shù)據(jù)挖掘研究
掃描二維碼
隨時隨地手機看文章
0 引 言
網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的提速與普及和移動互聯(lián)網(wǎng)相關(guān)服務(wù)應(yīng)用的迅猛發(fā)展,使得全球每分每秒產(chǎn)生的數(shù)據(jù)越來越多, 這些數(shù)據(jù)價值巨大,龐大的用戶群所提供的無限增長的數(shù)據(jù), 正在等待時機釋放出巨大的商業(yè)能量。一旦挖掘出數(shù)據(jù)價值, 那么商業(yè)機會將會變得無窮大。
1 “互聯(lián)網(wǎng)”+ 時代大數(shù)據(jù)對廣電行業(yè)的影響
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)機器和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。
近幾年,網(wǎng)絡(luò)媒體迅猛發(fā)展,信息更新速度極快,隨時向人們推送各種信息,人們可以自由選擇信息的來源,大數(shù)據(jù)的產(chǎn)生給廣電行業(yè)等傳統(tǒng)媒體制造了巨大的壓力和挑戰(zhàn)。大數(shù)據(jù)對傳統(tǒng)廣電影響巨大,廣電行業(yè)必須面對現(xiàn)實,充分利用大數(shù)據(jù),挖掘大數(shù)據(jù)背后的意義,對傳統(tǒng)的經(jīng)營與思維模式進行創(chuàng)新與變革,在新時代立于不敗之地。
“互聯(lián)網(wǎng)”+ 時代,網(wǎng)絡(luò)己蔓延至人類生存的方方面面, 以新聞網(wǎng)站為代表的網(wǎng)絡(luò)媒體迅速崛起,影響著廣大受眾的信息接觸習(xí)慣和信息獲取方式,對傳統(tǒng)媒體造成了極大沖擊。目前網(wǎng)絡(luò)媒體的廣告收入已基本和傳統(tǒng)媒體的收入持平,傳統(tǒng)電視媒體的廣告份額在逐年減少。電視仍是目前最具影響力的媒體之一,在社會生活各個方面的信息傳遞中起著舉足輕重的作用。因此,廣電行業(yè)雖然面臨巨大挑戰(zhàn),但也面對著更廣闊的發(fā)展空間。廣電媒體掌握著大量核心數(shù)據(jù),可以充分利用這一優(yōu)勢加以變革,使廣電行業(yè)迎來更加美好的明天。
2 廣電大數(shù)據(jù)的挖掘研究
2.1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘就是使用模式識別技術(shù)、統(tǒng)計和數(shù)學(xué)技術(shù)在大量數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系模式和趨勢的過程,即從海量數(shù)據(jù)中挖掘出可能有潛在價值的信息技術(shù)。它可實現(xiàn)以下功能:
(1) 分類 :按照訓(xùn)練對象的特征屬性,通過建立不同的組對事物進行描述,為目標對象或事件分類。
(2) 關(guān)聯(lián) :分析有聯(lián)系的對象或記錄,由此對有潛在關(guān)聯(lián)的事件做出推斷,從而對可能重復(fù)發(fā)生的模式進行識別。
(3) 聚類:對訓(xùn)練集進行識別,分析數(shù)據(jù)之間的內(nèi)在規(guī)則,進而把目標對象按照規(guī)則分成若干類。
(4) 預(yù)測 :對訓(xùn)練對象的發(fā)展規(guī)律進行分析,從而預(yù)測目標對象未來的發(fā)展趨勢。
各種社交網(wǎng)絡(luò)平臺、巨大的市場和客戶群,會產(chǎn)生龐大的數(shù)據(jù)資源,網(wǎng)絡(luò)平臺的結(jié)構(gòu)、標準、系統(tǒng)等都沒有統(tǒng)一的標準,且網(wǎng)絡(luò)產(chǎn)生的大數(shù)據(jù)資源是動態(tài)的,變化迅速,廣電若要在瞬息萬變的大數(shù)據(jù)環(huán)境中快速、準確地處理大量數(shù)據(jù), 就必須采用互聯(lián)網(wǎng)化思維進行大數(shù)據(jù)挖掘。因此,有效、快速的深度挖掘與進行客戶訂制化是廣電發(fā)展之根本。
2.2 廣電大數(shù)據(jù)采集
廣電大數(shù)據(jù)采集是指接收來自不同平臺的客戶端(網(wǎng)絡(luò)媒體、社交APP 或者傳感器等)數(shù)據(jù),建立多個大數(shù)據(jù)庫,用戶可根據(jù)自己的喜好使用大數(shù)據(jù)庫,查詢定制個性化產(chǎn)品,從而滿足自身需求。
當前,由于網(wǎng)絡(luò)媒傳和傳統(tǒng)廣電媒體的充分融合發(fā)展, 廣電組織結(jié)構(gòu)重構(gòu),大眾可以從許多渠道獲得信息并發(fā)布信息, 我們也可以通過多渠道進行廣電大數(shù)據(jù)采集。
(1) 利用電視平臺收集用戶數(shù)據(jù),選播電視節(jié)目時,實時記錄用戶選臺的詳細信息,比如所選節(jié)目、頻道、時間范圍等。
(2) 利用電視平臺中電視互動點播收集用戶數(shù)據(jù),記錄用戶喜愛的節(jié)目類型、時間范圍、頻次等。
(3) 利用各種網(wǎng)絡(luò)收集用戶數(shù)據(jù),記錄用戶在網(wǎng)絡(luò)媒體上發(fā)布的信息、手機實時瀏覽的信息等,要從 PC端、手機端、電視端等渠道采集廣電大數(shù)據(jù)。保證廣電大數(shù)據(jù)的全面、及時、準確,為廣電大數(shù)據(jù)挖掘處理做充分準備。
當然,由于同時訪問不同網(wǎng)絡(luò)的用戶成千上萬,訪問操作的并發(fā)數(shù)高,因此,在大數(shù)據(jù)的采集過程中難度很大,挑戰(zhàn)性極高,比如黃金時段的熱點新聞、電視直播的NBA 球賽、年輕人喜歡的一些綜藝節(jié)目等,它們并發(fā)的訪問量在峰值時可達上千萬,需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何分配合理的時間片以及負載給大量數(shù)據(jù)庫,都是在大數(shù)據(jù)采集中需要面對和攻克的問題,需要深入的思考和設(shè)計。
2.3 廣電大數(shù)據(jù)挖掘
數(shù)據(jù)挖掘能夠滿足一些高級別數(shù)據(jù)分析的需求,一般不會預(yù)先設(shè)定好主題,關(guān)鍵是基于各種算法對現(xiàn)有大數(shù)據(jù)源進行數(shù)據(jù)計算與處理,用以對未來數(shù)據(jù)進行預(yù)測。
數(shù)據(jù)挖掘算法多樣,關(guān)聯(lián)規(guī)則算法是比較常用的一種。此算法根據(jù)在同一事件中出現(xiàn)的不同項之間的相關(guān)性可以很好地預(yù)測數(shù)據(jù)項之間存在的關(guān)聯(lián)規(guī)則。比如能夠追蹤用戶在選臺中所做的不同選擇之間的相關(guān)性,得出節(jié)目之間的關(guān)聯(lián)規(guī)則, 從而比較準確地預(yù)測用戶喜好,有效為用戶提供個性化定制服務(wù)等。本文利用關(guān)聯(lián)規(guī)則算法探討對廣電大數(shù)據(jù)的精確挖掘, 為廣電行業(yè)的發(fā)展提供一定的理論依據(jù)。
關(guān)聯(lián)規(guī)則算法符號標識 :
設(shè) L- 數(shù)據(jù)項集 ={i1,i2,…,iL}。
數(shù)據(jù)項集 A 的支持度 :支持度用來衡量關(guān)聯(lián)規(guī)則的重要性,s(A)=σ(A)/N。
關(guān)聯(lián)規(guī)則 :假設(shè) A和 B是不相交的項集,即 :A∩ B= ,那么蘊含的關(guān)聯(lián)規(guī)則為 A → B。
可信度 :可信度用以衡量關(guān)聯(lián)規(guī)則的準確度,在包含 A 的數(shù)據(jù)中 B 也同時出現(xiàn)的概率值,形如 :c(A → B)=σ(A ∪ B)/σ(A)。
規(guī)則 A → B 的支持度 :數(shù)據(jù)項集 A 和數(shù)據(jù)項集 B 同時出現(xiàn)的概率,形如 :s(A → B)=σ(A ∪B)/N。
可信度和支持度的高低共同確定了關(guān)聯(lián)規(guī)則質(zhì)量的好壞,一條規(guī)則在所有事務(wù)中的代表性主要由支持度決定,支持度越大,可信度越高,關(guān)聯(lián)規(guī)則越重要,如果可信度很高,但支持度不高,則說明該關(guān)聯(lián)規(guī)則實用的機會不大,因而關(guān)聯(lián)規(guī)則用處極為有限。所以在關(guān)聯(lián)規(guī)則挖掘過程中,應(yīng)通過不斷修改閾值形成滿足一定最小可信度及最大支持度的具有較大作用的關(guān)聯(lián)規(guī)則集。
算法應(yīng)用分析 :采集到的大數(shù)據(jù)集記錄了用戶的訪問信息,用戶記錄中包含用戶收看的節(jié)目清單表,如節(jié)目的名稱、類型、收看時間段、節(jié)目數(shù)、訪問模式等。打開并使用數(shù)據(jù)集,可以看到其中的詳細記錄信息 :M 條記錄,N 個節(jié)目,及其他內(nèi)容,建立合適的數(shù)學(xué)統(tǒng)計模型,統(tǒng)計計算出支持度 S 和可信度 C,進而為數(shù)據(jù)建立關(guān)聯(lián)規(guī)則 A → B。此外,為了避免由于誤操作而使一些節(jié)目被多次點擊,我們需要設(shè)置它們各自合適的閾值,去除規(guī)則庫中創(chuàng)建的無用規(guī)則,保存有效的、具有高支持度、可信度的規(guī)則,以提高規(guī)則庫的性能。通過使用規(guī)則庫,追蹤分析預(yù)測出單個用戶的訪問模式、傾向以及偏好,高效為用戶提供定制服務(wù)。
3 數(shù)據(jù)挖掘的發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于各個領(lǐng)域,如廣電業(yè)、銀行業(yè)、生物學(xué)以及工業(yè)領(lǐng)域等,可幫助各行業(yè)進行市場行為分析預(yù)測及客戶流失性分析預(yù)測等。
由于網(wǎng)絡(luò)的廣泛應(yīng)用及網(wǎng)絡(luò)種類的復(fù)雜多樣,產(chǎn)生了海量復(fù)雜的結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù),形成了多樣組織結(jié)構(gòu)不兼容的各類型數(shù)據(jù)庫,大數(shù)據(jù)庫遍布各行各業(yè),導(dǎo)致數(shù)據(jù)挖掘技術(shù)需面向各行業(yè)復(fù)雜的大數(shù)據(jù)環(huán)境,因此需要對結(jié)構(gòu)不同、來源不同的不兼容大數(shù)據(jù)庫進行挖掘處理,發(fā)現(xiàn)其潛在意義。這是非常艱巨的挑戰(zhàn),甚至還需要對多維數(shù)據(jù)、多媒體數(shù)據(jù)以及生物醫(yī)學(xué)方面的數(shù)據(jù)進行更全面、深化的挖掘處理。數(shù)據(jù)挖掘技術(shù)的應(yīng)用有遠大的前景和無限的發(fā)展空間。
4 結(jié) 語
“互聯(lián)網(wǎng) +”時代,大數(shù)據(jù)的產(chǎn)生對廣電行業(yè)有很大影響, 而廣電的核心優(yōu)勢是已積累的海量數(shù)據(jù),同時也是廣電應(yīng)對當今形勢的基石。在現(xiàn)有海量數(shù)據(jù)的基礎(chǔ)上,運用網(wǎng)絡(luò)新技術(shù)搜集大量實時動態(tài)相關(guān)數(shù)據(jù),形成海量大數(shù)據(jù)庫,然后利用數(shù)據(jù)挖掘手段,對數(shù)據(jù)庫中的受眾層級進行分析處理,預(yù)測目標人群的喜好和需求,并根據(jù)分析預(yù)測的結(jié)果,按照目標人群的差異化、個性化要求,通過加快技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新, 使產(chǎn)品內(nèi)容多樣化、服務(wù)人性化,滿足受眾的個性化需求,提高和改善用戶體驗,培育和提升客戶忠誠度。廣電一定會在大數(shù)據(jù)時代中形成強大的市場影響力。