大數(shù)據(jù)怎樣提高環(huán)境治理能力
2015年國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,首次從國家信息化發(fā)展的戰(zhàn)略層面認定數(shù)據(jù)是國家的基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)成為提升政府治理能力的新途徑。2016年生態(tài)環(huán)境部(原環(huán)境保護部)印發(fā)《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》,開啟“互聯(lián)網(wǎng)+生態(tài)環(huán)境”戰(zhàn)略,推動政府環(huán)境治理創(chuàng)新。因此,大數(shù)據(jù)逐步成為環(huán)境治理的重要戰(zhàn)略資源和政府提升環(huán)境治理能力的重要手段,發(fā)展數(shù)字經(jīng)濟也成為可持續(xù)發(fā)展的重要方向,同時,對于推動生態(tài)環(huán)境治理能力現(xiàn)代化和加快生態(tài)文明建設(shè)進程具有重要意義。
近年來,隨著互聯(lián)網(wǎng)、計算機的飛速發(fā)展和技術(shù)進步以及人工智能軟硬件技術(shù)的發(fā)展和廣泛應(yīng)用,數(shù)據(jù)作為記錄各種人類活動的一種重要資源而呈現(xiàn)出爆發(fā)式增長,而從海量的、非結(jié)構(gòu)化的數(shù)據(jù)中獲取、處理、分析、挖掘其中有價值的信息成為國內(nèi)外政府、企業(yè)以及學術(shù)界的關(guān)注焦點。其中,非結(jié)構(gòu)化的文本大數(shù)據(jù)作為一種新的數(shù)據(jù)源,也是最重要的信息載體之一,往往帶有明顯的領(lǐng)域特征和獨特的語言模式,也常常包含大量的專業(yè)詞匯,能夠為環(huán)境治理問題提供有效的信息和獨特的分析視角。例如,文本大數(shù)據(jù)可以用于測度環(huán)境政策的不確定性、量化媒體關(guān)注度以及輿論導向、不同環(huán)境治理主體的情緒對相應(yīng)問題解決方式的影響、基于新聞的隱含波動因素等。
一、文本大數(shù)據(jù)的主要特征
傳統(tǒng)的數(shù)據(jù)收集往往借助于紙質(zhì)媒介,體量較小,數(shù)據(jù)獲取成本高,獲取時間相對滯后;而通過互聯(lián)網(wǎng)媒介進行文本數(shù)據(jù)收集和處理,不僅成本大幅降低,數(shù)據(jù)的可得性大幅增加,數(shù)據(jù)的體量也呈現(xiàn)幾何級數(shù)增長的特征。同時,隨著網(wǎng)絡(luò)平臺發(fā)布信息普及度的提高,除了傳統(tǒng)的政府職能部門和相關(guān)機構(gòu)發(fā)布信息之外,微博、微信公眾號、朋友圈、論壇帖子等新媒體形式也逐漸成為數(shù)據(jù)來源的重要渠道,文本大數(shù)據(jù)的發(fā)布主體從單一向多樣化進行轉(zhuǎn)變,頻率變得更高。通過互聯(lián)網(wǎng)平臺積累起來的數(shù)據(jù),就存儲在網(wǎng)絡(luò)空間中,文本信息即刻在網(wǎng)絡(luò)中留下痕跡,通過一定的方法和技術(shù)進行提取,信息獲取更加及時,數(shù)據(jù)獲取的成本也相對降低。通過利用互聯(lián)網(wǎng)大數(shù)據(jù)信息,可以獲取接近全體的樣本信息,海量的樣本量支持下,避免了由于信息不全面導致的錯覺以及判斷失誤,未來還將開拓更為豐富的數(shù)據(jù)源,如政府工作報告、規(guī)劃、書籍、檔案等。
二、文本大數(shù)據(jù)提取的重點和難點文本數(shù)據(jù)是信息的抽象提煉,正是由于海量文本數(shù)據(jù)信息的存在,獲取、處理和分析文本大數(shù)據(jù)方面仍然存在一些問題,其中最重要的是如何準確并且有效率地從海量文本中提取出所需要的核心信息,并考察其對相應(yīng)問題的解釋或預測能力。提取文本數(shù)據(jù)信息需要綜合考慮文本數(shù)據(jù)的來源、語言環(huán)境、內(nèi)容長短、句式結(jié)構(gòu)以及需提取信息的特征等因素,同時也要考慮信息提取的成本和收益。在條件允許的情況下,可以采用相對復雜的統(tǒng)計學習和深度學習相結(jié)合的信息提取方法來提高信息提取的準確性,優(yōu)化人機合作成為解決困難的重要方式。使用復雜方法時還需要保證這些方法的透明性和可復制性。最后還要注意的是,數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換和文本數(shù)據(jù)信息提取這兩步的執(zhí)行順序需要依靠具體問題來決定,有時需要經(jīng)過多次嘗試才能找到最佳方案。
三、文本大數(shù)據(jù)在環(huán)境治理方面的應(yīng)用現(xiàn)有環(huán)境領(lǐng)域文本相關(guān)分析的問題主要有兩大類,一是區(qū)分文本顯示的公民的情緒正負、新聞或者文件語調(diào)正負等聚類問題,二是對情緒、不確定性、恐慌程度、意見分歧程度的度量以及相應(yīng)的回歸問題。
1.文本情緒
因為情緒的變化可能會導致問題處理的結(jié)果不同,度量情緒并預測風險是文本大數(shù)據(jù)在環(huán)境治理領(lǐng)域的重要應(yīng)用方向,典型的例子是鄰避效應(yīng)。通常用“語調(diào)”來表示“情緒”,語調(diào)的不同表示了情緒的正面和負面、樂觀和悲觀、積極和消極等。根據(jù)情緒的不同主題,文本情緒的研究對象主要包括媒體語調(diào)(媒體新聞)、管理層語調(diào)(當事公司管理層討論與分析、環(huán)評報告以及其他公開披露的信息文件)、公民情緒(網(wǎng)絡(luò)論壇發(fā)帖)等。
媒體情緒度量媒體報道內(nèi)容中包含的樂觀與悲觀情緒。通常來看,媒體負面語氣能夠解釋鄰避問題的風險和解決方案,但正面語氣卻沒有解釋能力。
管理層的信息披露往往能反映管理層的決策和意圖,信息公開不全面、甚至相關(guān)信息空白,環(huán)評報告獨立性存疑,相當于利益集團放大了鄰避效應(yīng),無助于問題的解決。
2.媒體關(guān)注和傾向
傳統(tǒng)的數(shù)據(jù)指標和環(huán)境問題治理之間的關(guān)系不穩(wěn)定,且只能反映部分信息,與傳統(tǒng)數(shù)據(jù)相比,文本數(shù)據(jù)覆蓋領(lǐng)域廣泛、信息可以被很多個體所獲取、并且新聞內(nèi)容可能與當前和未來狀態(tài)密切相關(guān)。利用文本數(shù)據(jù)度量公民關(guān)注的環(huán)境問題采用的主要指標有搜索指數(shù)、閱讀頻率數(shù)據(jù)和論壇發(fā)帖量等。作為信息的制造者和傳播者,媒體的關(guān)注和傾向一方面可以影響普通公民對環(huán)境問題治理的關(guān)注,另一方面也影響信息的傳播效率和模式。
媒體對環(huán)境政策的變動和未來趨勢可能產(chǎn)生很重要的影響,比較典型的例子是“PM2.5”、“霧霾”等關(guān)鍵詞在一段時間內(nèi)在媒體中頻繁出現(xiàn),推動了PM2.5的數(shù)據(jù)公開以及《大氣污染防治行動計劃》等一系列治理大氣污染改善空氣質(zhì)量政策措施的出臺與實施。相比而言,傳統(tǒng)的自上而下的政策頒布實施時間跨度較長,而主流新聞媒體的新聞文本、網(wǎng)絡(luò)搜索短時間內(nèi)同一關(guān)鍵詞頻繁出現(xiàn),對新的環(huán)境政策的實施具有明顯的促進作用。
四、推動文本大數(shù)據(jù)應(yīng)用的保障措施統(tǒng)籌規(guī)劃,協(xié)同推進文本數(shù)據(jù)資源整合,建設(shè)現(xiàn)代化高技術(shù)的數(shù)據(jù)中心,加強內(nèi)部共享和動態(tài)更新;整合信息平臺,逐漸形成統(tǒng)一的互聯(lián)網(wǎng)文本數(shù)據(jù)平臺,實現(xiàn)信息的有效共享和開放交換;建立文本數(shù)據(jù)正負面清單,完善健全文本數(shù)據(jù)開放制度和機制,提高各政府部門和社會機構(gòu)的文本數(shù)據(jù)開放熱情。
文本大數(shù)據(jù)為度量公民情緒提供了新的數(shù)據(jù)源。一方面,由于公民越來越傾向于選擇在網(wǎng)絡(luò)論壇上發(fā)布相關(guān)的評論帖子或者做出相關(guān)搜索,這些文本數(shù)據(jù)能直接反映他們對鄰避事件的看法、對當前狀態(tài)的解讀以及與自身決策相關(guān)的信息。另一方面,這些數(shù)據(jù)易獲得且覆蓋群體范圍廣,滿足了從不同頻率、不同層面研究情緒與鄰避風險關(guān)系的需求。加強文本大數(shù)據(jù)處理和分析的技術(shù)創(chuàng)新、建立一體化的大數(shù)據(jù)平臺和完善的數(shù)據(jù)管理體系,通過對文本大數(shù)據(jù)的高效采集、有效整合,加強對政府數(shù)據(jù)的共享開放和社會數(shù)據(jù)的挖掘應(yīng)用,提升環(huán)境問題決策能力,提高風險防范水平,進一步深化環(huán)境治理的精準性和有效性。