新聞大數(shù)據(jù)的增值應(yīng)用
新聞大數(shù)據(jù)借助于領(lǐng)域詞表、大數(shù)據(jù)和人工智能技術(shù),將雜亂無章的新聞條目數(shù)據(jù)按照領(lǐng)域詞表自動重新聚類,并在聚類的基礎(chǔ)上,進(jìn)行數(shù)據(jù)重組和集成,形成具有較大價值的專題數(shù)據(jù),提供給機(jī)構(gòu)和讀者。
新聞大數(shù)據(jù)是報社的制勝法寶
互聯(lián)網(wǎng)媒體對傳統(tǒng)報社構(gòu)成了較大沖擊,經(jīng)濟(jì)效益顯著下滑,讀者數(shù)量也急劇減少。報社賴以生存的新聞報道已經(jīng)被今日頭條、手百等互聯(lián)網(wǎng)媒體所取代,讀者通過手機(jī)百度等媒體就可以全面了解當(dāng)前熱點(diǎn)、新聞、時政等新聞內(nèi)容,導(dǎo)致報社讀者大量流失,讀者的流失又直接導(dǎo)致了廣告商投入和報紙銷量的減少。
針對互聯(lián)網(wǎng)媒體的沖擊,報社也投入了大量資金以應(yīng)對日趨惡化的經(jīng)營環(huán)境,例如,建立新聞網(wǎng)站、移動新聞客戶端、融媒體建設(shè)等。但大多收效甚微,主要原因是——雖然新聞的生產(chǎn)方式、經(jīng)營方式已經(jīng)數(shù)字和互聯(lián)網(wǎng)化,提高了新聞的生產(chǎn)和傳播效率,但是其經(jīng)營的內(nèi)容沒有改變,依然是售賣新聞模式,該模式同手機(jī)百度等媒體相比,缺乏內(nèi)容競爭力,讀者自然就不買賬了。
不過,報社也有其自身的競爭力。以參考消息為例,參考消息完成了自1953年至今所有參考消息版面的數(shù)字化加工工作,加工后的數(shù)字內(nèi)容以PDF、數(shù)據(jù)庫、XML等多種方式存儲,為大數(shù)據(jù)增值服務(wù)提供了數(shù)據(jù)支撐。參考消息大數(shù)據(jù)集中體現(xiàn)了中國自建國以來,國外媒體對中國外交、經(jīng)濟(jì)、政治、民生等方面的報道及觀點(diǎn),其承載的文化內(nèi)容和歷史內(nèi)涵都是不言而喻的,對研究中國國情及發(fā)展歷程具有很大的文獻(xiàn)情報價值,對圖書館、機(jī)構(gòu)、社會組織、企業(yè)、讀者都有較強(qiáng)的內(nèi)容吸引力,也是今日頭條、手百等媒體不能給予讀者的內(nèi)容。
大數(shù)據(jù)增值應(yīng)用有哪些技術(shù)內(nèi)容?
大數(shù)據(jù)增值服務(wù)涉及到數(shù)據(jù)的感知與采集、數(shù)據(jù)的存儲、數(shù)據(jù)的挖掘分析與重組、數(shù)據(jù)的展現(xiàn)與交互技術(shù)。
數(shù)據(jù)的感知與采集是獲取并對數(shù)據(jù)進(jìn)行預(yù)處理的技術(shù)。例如,新聞機(jī)構(gòu)一般都以數(shù)據(jù)庫方式存儲新聞條目,這就需要系統(tǒng)能夠識別數(shù)據(jù)庫存儲的新聞條目,并按照預(yù)定規(guī)則對新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲系統(tǒng)。再如,利用爬蟲技術(shù)從新聞網(wǎng)站采集新聞條目,并按照預(yù)定規(guī)則對采集的新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲系統(tǒng)。
大數(shù)據(jù)的存儲技術(shù)非常重要,直接關(guān)系到大數(shù)據(jù)增值服務(wù)系統(tǒng)的響應(yīng)和運(yùn)算能力,從系統(tǒng)的響應(yīng)和運(yùn)算能力考慮,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲、數(shù)據(jù)集中式存儲技術(shù)已不能滿足大數(shù)據(jù)的存儲與數(shù)據(jù)運(yùn)算需求。需要運(yùn)用新的數(shù)據(jù)存儲和運(yùn)算技術(shù),以滿足不斷增長的數(shù)據(jù)存儲需求和高并發(fā)數(shù)據(jù)的運(yùn)算能力。
新聞大數(shù)據(jù)的增值服務(wù)主要是對新聞數(shù)據(jù)進(jìn)行挖掘和重組,對機(jī)構(gòu)和讀者提供數(shù)據(jù)檢索和專題數(shù)據(jù)服務(wù)。例如,某機(jī)構(gòu)要組織“記錄濰坊,見證歷史”活動,可以通過新聞大數(shù)據(jù)系統(tǒng)挖掘?yàn)H坊發(fā)展過程中涉及的熱點(diǎn)、大事件、政策、民生變化等新聞條目,并按照時間線和熱點(diǎn)、大事件、政策、民生進(jìn)行排序和歸類,生成專題數(shù)據(jù),活動參與者可以通過瀏覽器、手機(jī)瀏覽專題數(shù)據(jù)。再如,對濰坊文化、歷史感興趣的讀者都可以通過檢索和專題數(shù)據(jù)來感知濰坊。
數(shù)據(jù)的展現(xiàn)和交互技術(shù)直接影響用戶使用大數(shù)據(jù)服務(wù)的體驗(yàn),也影響到大數(shù)據(jù)服務(wù)的傳播和推廣。面向機(jī)構(gòu)提供大數(shù)據(jù)服務(wù)時,系統(tǒng)可以部署到機(jī)構(gòu)內(nèi)部(大數(shù)據(jù)鏡像服務(wù)),也可以部署在云端,并提供標(biāo)準(zhǔn)或者個性化的檢索與閱讀頁面,機(jī)構(gòu)讀者可以在機(jī)構(gòu)內(nèi)部和外部通過移動終端(微信小程序)、PC瀏覽器訪問大數(shù)據(jù)服務(wù);面向讀者提供服務(wù)時,充分考慮到新聞機(jī)構(gòu)已有的系統(tǒng)建設(shè),提供數(shù)據(jù)服務(wù)接口,為新聞機(jī)構(gòu)已有系統(tǒng)提供數(shù)據(jù)獲取服務(wù)。
大數(shù)據(jù)增值應(yīng)用實(shí)現(xiàn)需要的核心技術(shù)
大數(shù)據(jù)服務(wù)首先要解決大數(shù)據(jù)的存儲與高并發(fā)運(yùn)算需求。大數(shù)據(jù)的特征是高價值的海量數(shù)據(jù)、數(shù)據(jù)來源渠道眾多、適合于數(shù)據(jù)的挖掘和重組、支持高并發(fā)運(yùn)算?;诖髷?shù)據(jù)的上述特征,采用傳統(tǒng)的數(shù)據(jù)集中式存儲和關(guān)系型數(shù)據(jù)庫技術(shù)已經(jīng)不能滿足大數(shù)據(jù)服務(wù)需求,需要采用新的存儲和數(shù)據(jù)庫技術(shù)。
大數(shù)據(jù)服務(wù)宜采用分布式存儲以提高大數(shù)據(jù)的存儲擴(kuò)展能力。考慮到大數(shù)據(jù)硬件建設(shè)成本和便捷的擴(kuò)展性,服務(wù)器應(yīng)采用價格低廉的普通PC服務(wù)器,每臺PC服務(wù)器通過網(wǎng)絡(luò)連接,工作互相不受干擾,數(shù)據(jù)存儲到自身的硬盤上,當(dāng)需要擴(kuò)展數(shù)據(jù)存儲時,直接在網(wǎng)絡(luò)中加入PC服務(wù)器即可。所有接入存儲網(wǎng)絡(luò)的PC服務(wù)器在分布式操作系統(tǒng)的控制下,自動保存數(shù)據(jù)的多個副本到不同的PC服務(wù)器,以提高數(shù)據(jù)的容錯性,可以在不同服務(wù)器之間直接拷貝和復(fù)制數(shù)據(jù),保持各服務(wù)器的負(fù)載平衡。
系統(tǒng)應(yīng)用分布式基礎(chǔ)架構(gòu)Hadoop技術(shù),硬件可以基于普通PC 服務(wù)器,存儲基于服務(wù)器自帶的本地硬盤,操作系統(tǒng)采用Linux。上述基礎(chǔ)架構(gòu)擁有較高的存儲擴(kuò)展能力和內(nèi)在的故障容錯能力以及數(shù)據(jù)保障機(jī)制,可以降低每TB數(shù)據(jù)的處理成本,為大數(shù)據(jù)處理提供技術(shù)和性價比支撐。數(shù)據(jù)庫采用Hbase,HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。利用HBase和Hadoop技術(shù),可在廉價PC 服務(wù)器上搭建大規(guī)模結(jié)構(gòu)化存儲集群。
大數(shù)據(jù)服務(wù)宜采用云計(jì)算以提高大數(shù)據(jù)的運(yùn)算能力,運(yùn)算能力包括檢索、數(shù)據(jù)挖掘、重組能力。由不同PC服務(wù)器組成的分布式存儲系統(tǒng)可以構(gòu)建云計(jì)算,利用PC服務(wù)器自身的運(yùn)算能力,對自身存儲的數(shù)據(jù)進(jìn)行運(yùn)算,每臺PC服務(wù)器的運(yùn)算結(jié)果匯總后,返回給數(shù)據(jù)請求者。
利用Hadoop的MapReduce技術(shù),可以控制多臺PC服務(wù)器完成數(shù)據(jù)的并發(fā)運(yùn)算。例如,讀者在前端的一個檢索請求,會觸發(fā)MapReduce發(fā)起云計(jì)算,MapReduce將調(diào)用多臺PC服務(wù)器參與運(yùn)算,然后將每臺服務(wù)器的運(yùn)算結(jié)果匯總并返回給檢索系統(tǒng)。