當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀] 新聞大數(shù)據(jù)借助于領(lǐng)域詞表、大數(shù)據(jù)和人工智能技術(shù),將雜亂無章的新聞條目數(shù)據(jù)按照領(lǐng)域詞表自動重新聚類,并在聚類的基礎(chǔ)上,進(jìn)行數(shù)據(jù)重組和集成,形成具有較大價值的專題數(shù)據(jù),提供給機(jī)構(gòu)和讀者。

 新聞大數(shù)據(jù)借助于領(lǐng)域詞表、大數(shù)據(jù)和人工智能技術(shù),將雜亂無章的新聞條目數(shù)據(jù)按照領(lǐng)域詞表自動重新聚類,并在聚類的基礎(chǔ)上,進(jìn)行數(shù)據(jù)重組和集成,形成具有較大價值的專題數(shù)據(jù),提供給機(jī)構(gòu)和讀者。

新聞大數(shù)據(jù)是報社的制勝法寶

互聯(lián)網(wǎng)媒體對傳統(tǒng)報社構(gòu)成了較大沖擊,經(jīng)濟(jì)效益顯著下滑,讀者數(shù)量也急劇減少。報社賴以生存的新聞報道已經(jīng)被今日頭條、手百等互聯(lián)網(wǎng)媒體所取代,讀者通過手機(jī)百度等媒體就可以全面了解當(dāng)前熱點(diǎn)、新聞、時政等新聞內(nèi)容,導(dǎo)致報社讀者大量流失,讀者的流失又直接導(dǎo)致了廣告商投入和報紙銷量的減少。

針對互聯(lián)網(wǎng)媒體的沖擊,報社也投入了大量資金以應(yīng)對日趨惡化的經(jīng)營環(huán)境,例如,建立新聞網(wǎng)站、移動新聞客戶端、融媒體建設(shè)等。但大多收效甚微,主要原因是——雖然新聞的生產(chǎn)方式、經(jīng)營方式已經(jīng)數(shù)字和互聯(lián)網(wǎng)化,提高了新聞的生產(chǎn)和傳播效率,但是其經(jīng)營的內(nèi)容沒有改變,依然是售賣新聞模式,該模式同手機(jī)百度等媒體相比,缺乏內(nèi)容競爭力,讀者自然就不買賬了。

不過,報社也有其自身的競爭力。以參考消息為例,參考消息完成了自1953年至今所有參考消息版面的數(shù)字化加工工作,加工后的數(shù)字內(nèi)容以PDF、數(shù)據(jù)庫、XML等多種方式存儲,為大數(shù)據(jù)增值服務(wù)提供了數(shù)據(jù)支撐。參考消息大數(shù)據(jù)集中體現(xiàn)了中國自建國以來,國外媒體對中國外交、經(jīng)濟(jì)、政治、民生等方面的報道及觀點(diǎn),其承載的文化內(nèi)容和歷史內(nèi)涵都是不言而喻的,對研究中國國情及發(fā)展歷程具有很大的文獻(xiàn)情報價值,對圖書館、機(jī)構(gòu)、社會組織、企業(yè)、讀者都有較強(qiáng)的內(nèi)容吸引力,也是今日頭條、手百等媒體不能給予讀者的內(nèi)容。

大數(shù)據(jù)增值應(yīng)用有哪些技術(shù)內(nèi)容?

大數(shù)據(jù)增值服務(wù)涉及到數(shù)據(jù)的感知與采集、數(shù)據(jù)的存儲、數(shù)據(jù)的挖掘分析與重組、數(shù)據(jù)的展現(xiàn)與交互技術(shù)。

數(shù)據(jù)的感知與采集是獲取并對數(shù)據(jù)進(jìn)行預(yù)處理的技術(shù)。例如,新聞機(jī)構(gòu)一般都以數(shù)據(jù)庫方式存儲新聞條目,這就需要系統(tǒng)能夠識別數(shù)據(jù)庫存儲的新聞條目,并按照預(yù)定規(guī)則對新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲系統(tǒng)。再如,利用爬蟲技術(shù)從新聞網(wǎng)站采集新聞條目,并按照預(yù)定規(guī)則對采集的新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲系統(tǒng)。

大數(shù)據(jù)的存儲技術(shù)非常重要,直接關(guān)系到大數(shù)據(jù)增值服務(wù)系統(tǒng)的響應(yīng)和運(yùn)算能力,從系統(tǒng)的響應(yīng)和運(yùn)算能力考慮,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲、數(shù)據(jù)集中式存儲技術(shù)已不能滿足大數(shù)據(jù)的存儲與數(shù)據(jù)運(yùn)算需求。需要運(yùn)用新的數(shù)據(jù)存儲和運(yùn)算技術(shù),以滿足不斷增長的數(shù)據(jù)存儲需求和高并發(fā)數(shù)據(jù)的運(yùn)算能力。

新聞大數(shù)據(jù)的增值服務(wù)主要是對新聞數(shù)據(jù)進(jìn)行挖掘和重組,對機(jī)構(gòu)和讀者提供數(shù)據(jù)檢索和專題數(shù)據(jù)服務(wù)。例如,某機(jī)構(gòu)要組織“記錄濰坊,見證歷史”活動,可以通過新聞大數(shù)據(jù)系統(tǒng)挖掘?yàn)H坊發(fā)展過程中涉及的熱點(diǎn)、大事件、政策、民生變化等新聞條目,并按照時間線和熱點(diǎn)、大事件、政策、民生進(jìn)行排序和歸類,生成專題數(shù)據(jù),活動參與者可以通過瀏覽器、手機(jī)瀏覽專題數(shù)據(jù)。再如,對濰坊文化、歷史感興趣的讀者都可以通過檢索和專題數(shù)據(jù)來感知濰坊。

數(shù)據(jù)的展現(xiàn)和交互技術(shù)直接影響用戶使用大數(shù)據(jù)服務(wù)的體驗(yàn),也影響到大數(shù)據(jù)服務(wù)的傳播和推廣。面向機(jī)構(gòu)提供大數(shù)據(jù)服務(wù)時,系統(tǒng)可以部署到機(jī)構(gòu)內(nèi)部(大數(shù)據(jù)鏡像服務(wù)),也可以部署在云端,并提供標(biāo)準(zhǔn)或者個性化的檢索與閱讀頁面,機(jī)構(gòu)讀者可以在機(jī)構(gòu)內(nèi)部和外部通過移動終端(微信小程序)、PC瀏覽器訪問大數(shù)據(jù)服務(wù);面向讀者提供服務(wù)時,充分考慮到新聞機(jī)構(gòu)已有的系統(tǒng)建設(shè),提供數(shù)據(jù)服務(wù)接口,為新聞機(jī)構(gòu)已有系統(tǒng)提供數(shù)據(jù)獲取服務(wù)。

大數(shù)據(jù)增值應(yīng)用實(shí)現(xiàn)需要的核心技術(shù)

大數(shù)據(jù)服務(wù)首先要解決大數(shù)據(jù)的存儲與高并發(fā)運(yùn)算需求。大數(shù)據(jù)的特征是高價值的海量數(shù)據(jù)、數(shù)據(jù)來源渠道眾多、適合于數(shù)據(jù)的挖掘和重組、支持高并發(fā)運(yùn)算?;诖髷?shù)據(jù)的上述特征,采用傳統(tǒng)的數(shù)據(jù)集中式存儲和關(guān)系型數(shù)據(jù)庫技術(shù)已經(jīng)不能滿足大數(shù)據(jù)服務(wù)需求,需要采用新的存儲和數(shù)據(jù)庫技術(shù)。

大數(shù)據(jù)服務(wù)宜采用分布式存儲以提高大數(shù)據(jù)的存儲擴(kuò)展能力。考慮到大數(shù)據(jù)硬件建設(shè)成本和便捷的擴(kuò)展性,服務(wù)器應(yīng)采用價格低廉的普通PC服務(wù)器,每臺PC服務(wù)器通過網(wǎng)絡(luò)連接,工作互相不受干擾,數(shù)據(jù)存儲到自身的硬盤上,當(dāng)需要擴(kuò)展數(shù)據(jù)存儲時,直接在網(wǎng)絡(luò)中加入PC服務(wù)器即可。所有接入存儲網(wǎng)絡(luò)的PC服務(wù)器在分布式操作系統(tǒng)的控制下,自動保存數(shù)據(jù)的多個副本到不同的PC服務(wù)器,以提高數(shù)據(jù)的容錯性,可以在不同服務(wù)器之間直接拷貝和復(fù)制數(shù)據(jù),保持各服務(wù)器的負(fù)載平衡。

系統(tǒng)應(yīng)用分布式基礎(chǔ)架構(gòu)Hadoop技術(shù),硬件可以基于普通PC 服務(wù)器,存儲基于服務(wù)器自帶的本地硬盤,操作系統(tǒng)采用Linux。上述基礎(chǔ)架構(gòu)擁有較高的存儲擴(kuò)展能力和內(nèi)在的故障容錯能力以及數(shù)據(jù)保障機(jī)制,可以降低每TB數(shù)據(jù)的處理成本,為大數(shù)據(jù)處理提供技術(shù)和性價比支撐。數(shù)據(jù)庫采用Hbase,HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。利用HBase和Hadoop技術(shù),可在廉價PC 服務(wù)器上搭建大規(guī)模結(jié)構(gòu)化存儲集群。

大數(shù)據(jù)服務(wù)宜采用云計(jì)算以提高大數(shù)據(jù)的運(yùn)算能力,運(yùn)算能力包括檢索、數(shù)據(jù)挖掘、重組能力。由不同PC服務(wù)器組成的分布式存儲系統(tǒng)可以構(gòu)建云計(jì)算,利用PC服務(wù)器自身的運(yùn)算能力,對自身存儲的數(shù)據(jù)進(jìn)行運(yùn)算,每臺PC服務(wù)器的運(yùn)算結(jié)果匯總后,返回給數(shù)據(jù)請求者。

利用Hadoop的MapReduce技術(shù),可以控制多臺PC服務(wù)器完成數(shù)據(jù)的并發(fā)運(yùn)算。例如,讀者在前端的一個檢索請求,會觸發(fā)MapReduce發(fā)起云計(jì)算,MapReduce將調(diào)用多臺PC服務(wù)器參與運(yùn)算,然后將每臺服務(wù)器的運(yùn)算結(jié)果匯總并返回給檢索系統(tǒng)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉