當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 物聯(lián)網(wǎng)技術(shù)文庫(kù)
[導(dǎo)讀] 2015年國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,首次從國(guó)家信息化發(fā)展的戰(zhàn)略層面認(rèn)定數(shù)據(jù)是國(guó)家的基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)成為提升政府治理能力的新途徑。2016年生態(tài)環(huán)境部(原環(huán)境保護(hù)部)印發(fā)《生態(tài)環(huán)

2015年國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,首次從國(guó)家信息化發(fā)展的戰(zhàn)略層面認(rèn)定數(shù)據(jù)是國(guó)家的基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)成為提升政府治理能力的新途徑。2016年生態(tài)環(huán)境部(原環(huán)境保護(hù)部)印發(fā)《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》,開啟“互聯(lián)網(wǎng)+生態(tài)環(huán)境”戰(zhàn)略,推動(dòng)政府環(huán)境治理創(chuàng)新。因此,大數(shù)據(jù)逐步成為環(huán)境治理的重要戰(zhàn)略資源和政府提升環(huán)境治理能力的重要手段,發(fā)展數(shù)字經(jīng)濟(jì)也成為可持續(xù)發(fā)展的重要方向,同時(shí),對(duì)于推動(dòng)生態(tài)環(huán)境治理能力現(xiàn)代化和加快生態(tài)文明建設(shè)進(jìn)程具有重要意義。

近年來(lái),隨著互聯(lián)網(wǎng)、計(jì)算機(jī)的飛速發(fā)展和技術(shù)進(jìn)步以及人工智能軟硬件技術(shù)的發(fā)展和廣泛應(yīng)用,數(shù)據(jù)作為記錄各種人類活動(dòng)的一種重要資源而呈現(xiàn)出爆發(fā)式增長(zhǎng),而從海量的、非結(jié)構(gòu)化的數(shù)據(jù)中獲取、處理、分析、挖掘其中有價(jià)值的信息成為國(guó)內(nèi)外政府、企業(yè)以及學(xué)術(shù)界的關(guān)注焦點(diǎn)。其中,非結(jié)構(gòu)化的文本大數(shù)據(jù)作為一種新的數(shù)據(jù)源,也是最重要的信息載體之一,往往帶有明顯的領(lǐng)域特征和獨(dú)特的語(yǔ)言模式,也常常包含大量的專業(yè)詞匯,能夠?yàn)榄h(huán)境治理問(wèn)題提供有效的信息和獨(dú)特的分析視角。例如,文本大數(shù)據(jù)可以用于測(cè)度環(huán)境政策的不確定性、量化媒體關(guān)注度以及輿論導(dǎo)向、不同環(huán)境治理主體的情緒對(duì)相應(yīng)問(wèn)題解決方式的影響、基于新聞的隱含波動(dòng)因素等。

一、文本大數(shù)據(jù)的主要特征

傳統(tǒng)的數(shù)據(jù)收集往往借助于紙質(zhì)媒介,體量較小,數(shù)據(jù)獲取成本高,獲取時(shí)間相對(duì)滯后;而通過(guò)互聯(lián)網(wǎng)媒介進(jìn)行文本數(shù)據(jù)收集和處理,不僅成本大幅降低,數(shù)據(jù)的可得性大幅增加,數(shù)據(jù)的體量也呈現(xiàn)幾何級(jí)數(shù)增長(zhǎng)的特征。同時(shí),隨著網(wǎng)絡(luò)平臺(tái)發(fā)布信息普及度的提高,除了傳統(tǒng)的政府職能部門和相關(guān)機(jī)構(gòu)發(fā)布信息之外,微博、微信公眾號(hào)、朋友圈、論壇帖子等新媒體形式也逐漸成為數(shù)據(jù)來(lái)源的重要渠道,文本大數(shù)據(jù)的發(fā)布主體從單一向多樣化進(jìn)行轉(zhuǎn)變,頻率變得更高。通過(guò)互聯(lián)網(wǎng)平臺(tái)積累起來(lái)的數(shù)據(jù),就存儲(chǔ)在網(wǎng)絡(luò)空間中,文本信息即刻在網(wǎng)絡(luò)中留下痕跡,通過(guò)一定的方法和技術(shù)進(jìn)行提取,信息獲取更加及時(shí),數(shù)據(jù)獲取的成本也相對(duì)降低。通過(guò)利用互聯(lián)網(wǎng)大數(shù)據(jù)信息,可以獲取接近全體的樣本信息,海量的樣本量支持下,避免了由于信息不全面導(dǎo)致的錯(cuò)覺以及判斷失誤,未來(lái)還將開拓更為豐富的數(shù)據(jù)源,如政府工作報(bào)告、規(guī)劃、書籍、檔案等。

二、文本大數(shù)據(jù)提取的重點(diǎn)和難點(diǎn)

文本數(shù)據(jù)是信息的抽象提煉,正是由于海量文本數(shù)據(jù)信息的存在,獲取、處理和分析文本大數(shù)據(jù)方面仍然存在一些問(wèn)題,其中最重要的是如何準(zhǔn)確并且有效率地從海量文本中提取出所需要的核心信息,并考察其對(duì)相應(yīng)問(wèn)題的解釋或預(yù)測(cè)能力。提取文本數(shù)據(jù)信息需要綜合考慮文本數(shù)據(jù)的來(lái)源、語(yǔ)言環(huán)境、內(nèi)容長(zhǎng)短、句式結(jié)構(gòu)以及需提取信息的特征等因素,同時(shí)也要考慮信息提取的成本和收益。在條件允許的情況下,可以采用相對(duì)復(fù)雜的統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的信息提取方法來(lái)提高信息提取的準(zhǔn)確性,優(yōu)化人機(jī)合作成為解決困難的重要方式。使用復(fù)雜方法時(shí)還需要保證這些方法的透明性和可復(fù)制性。最后還要注意的是,數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換和文本數(shù)據(jù)信息提取這兩步的執(zhí)行順序需要依靠具體問(wèn)題來(lái)決定,有時(shí)需要經(jīng)過(guò)多次嘗試才能找到最佳方案。

三、文本大數(shù)據(jù)在環(huán)境治理方面的應(yīng)用

現(xiàn)有環(huán)境領(lǐng)域文本相關(guān)分析的問(wèn)題主要有兩大類,一是區(qū)分文本顯示的公民的情緒正負(fù)、新聞或者文件語(yǔ)調(diào)正負(fù)等聚類問(wèn)題,二是對(duì)情緒、不確定性、恐慌程度、意見分歧程度的度量以及相應(yīng)的回歸問(wèn)題。

1.文本情緒

因?yàn)榍榫w的變化可能會(huì)導(dǎo)致問(wèn)題處理的結(jié)果不同,度量情緒并預(yù)測(cè)風(fēng)險(xiǎn)是文本大數(shù)據(jù)在環(huán)境治理領(lǐng)域的重要應(yīng)用方向,典型的例子是鄰避效應(yīng)。通常用“語(yǔ)調(diào)”來(lái)表示“情緒”,語(yǔ)調(diào)的不同表示了情緒的正面和負(fù)面、樂觀和悲觀、積極和消極等。根據(jù)情緒的不同主題,文本情緒的研究對(duì)象主要包括媒體語(yǔ)調(diào)(媒體新聞)、管理層語(yǔ)調(diào)(當(dāng)事公司管理層討論與分析、環(huán)評(píng)報(bào)告以及其他公開披露的信息文件)、公民情緒(網(wǎng)絡(luò)論壇發(fā)帖)等。

媒體情緒度量媒體報(bào)道內(nèi)容中包含的樂觀與悲觀情緒。通常來(lái)看,媒體負(fù)面語(yǔ)氣能夠解釋鄰避問(wèn)題的風(fēng)險(xiǎn)和解決方案,但正面語(yǔ)氣卻沒有解釋能力。

管理層的信息披露往往能反映管理層的決策和意圖,信息公開不全面、甚至相關(guān)信息空白,環(huán)評(píng)報(bào)告獨(dú)立性存疑,相當(dāng)于利益集團(tuán)放大了鄰避效應(yīng),無(wú)助于問(wèn)題的解決。

2.媒體關(guān)注和傾向

傳統(tǒng)的數(shù)據(jù)指標(biāo)和環(huán)境問(wèn)題治理之間的關(guān)系不穩(wěn)定,且只能反映部分信息,與傳統(tǒng)數(shù)據(jù)相比,文本數(shù)據(jù)覆蓋領(lǐng)域廣泛、信息可以被很多個(gè)體所獲取、并且新聞內(nèi)容可能與當(dāng)前和未來(lái)狀態(tài)密切相關(guān)。利用文本數(shù)據(jù)度量公民關(guān)注的環(huán)境問(wèn)題采用的主要指標(biāo)有搜索指數(shù)、閱讀頻率數(shù)據(jù)和論壇發(fā)帖量等。作為信息的制造者和傳播者,媒體的關(guān)注和傾向一方面可以影響普通公民對(duì)環(huán)境問(wèn)題治理的關(guān)注,另一方面也影響信息的傳播效率和模式。

媒體對(duì)環(huán)境政策的變動(dòng)和未來(lái)趨勢(shì)可能產(chǎn)生很重要的影響,比較典型的例子是“PM2.5”、“霧霾”等關(guān)鍵詞在一段時(shí)間內(nèi)在媒體中頻繁出現(xiàn),推動(dòng)了PM2.5的數(shù)據(jù)公開以及《大氣污染防治行動(dòng)計(jì)劃》等一系列治理大氣污染改善空氣質(zhì)量政策措施的出臺(tái)與實(shí)施。相比而言,傳統(tǒng)的自上而下的政策頒布實(shí)施時(shí)間跨度較長(zhǎng),而主流新聞媒體的新聞文本、網(wǎng)絡(luò)搜索短時(shí)間內(nèi)同一關(guān)鍵詞頻繁出現(xiàn),對(duì)新的環(huán)境政策的實(shí)施具有明顯的促進(jìn)作用。

四、推動(dòng)文本大數(shù)據(jù)應(yīng)用的保障措施

統(tǒng)籌規(guī)劃,協(xié)同推進(jìn)文本數(shù)據(jù)資源整合,建設(shè)現(xiàn)代化高技術(shù)的數(shù)據(jù)中心,加強(qiáng)內(nèi)部共享和動(dòng)態(tài)更新;整合信息平臺(tái),逐漸形成統(tǒng)一的互聯(lián)網(wǎng)文本數(shù)據(jù)平臺(tái),實(shí)現(xiàn)信息的有效共享和開放交換;建立文本數(shù)據(jù)正負(fù)面清單,完善健全文本數(shù)據(jù)開放制度和機(jī)制,提高各政府部門和社會(huì)機(jī)構(gòu)的文本數(shù)據(jù)開放熱情。

文本大數(shù)據(jù)為度量公民情緒提供了新的數(shù)據(jù)源。一方面,由于公民越來(lái)越傾向于選擇在網(wǎng)絡(luò)論壇上發(fā)布相關(guān)的評(píng)論帖子或者做出相關(guān)搜索,這些文本數(shù)據(jù)能直接反映他們對(duì)鄰避事件的看法、對(duì)當(dāng)前狀態(tài)的解讀以及與自身決策相關(guān)的信息。另一方面,這些數(shù)據(jù)易獲得且覆蓋群體范圍廣,滿足了從不同頻率、不同層面研究情緒與鄰避風(fēng)險(xiǎn)關(guān)系的需求。加強(qiáng)文本大數(shù)據(jù)處理和分析的技術(shù)創(chuàng)新、建立一體化的大數(shù)據(jù)平臺(tái)和完善的數(shù)據(jù)管理體系,通過(guò)對(duì)文本大數(shù)據(jù)的高效采集、有效整合,加強(qiáng)對(duì)政府?dāng)?shù)據(jù)的共享開放和社會(huì)數(shù)據(jù)的挖掘應(yīng)用,提升環(huán)境問(wèn)題決策能力,提高風(fēng)險(xiǎn)防范水平,進(jìn)一步深化環(huán)境治理的精準(zhǔn)性和有效性。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉