文本大數(shù)據(jù)能提升環(huán)境治理能力?
2015年國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,首次從國家信息化發(fā)展的戰(zhàn)略層面認定數(shù)據(jù)是國家的基礎性戰(zhàn)略資源,大數(shù)據(jù)成為提升政府治理能力的新途徑。2016年生態(tài)環(huán)境部(原環(huán)境保護部)印發(fā)《生態(tài)環(huán)境大數(shù)據(jù)建設總體方案》,開啟“互聯(lián)網(wǎng)+生態(tài)環(huán)境”戰(zhàn)略,推動政府環(huán)境治理創(chuàng)新。因此,大數(shù)據(jù)逐步成為環(huán)境治理的重要戰(zhàn)略資源和政府提升環(huán)境治理能力的重要手段,發(fā)展數(shù)字經濟也成為可持續(xù)發(fā)展的重要方向,同時,對于推動生態(tài)環(huán)境治理能力現(xiàn)代化和加快生態(tài)文明建設進程具有重要意義。
近年來,隨著互聯(lián)網(wǎng)、計算機的飛速發(fā)展和技術進步以及人工智能軟硬件技術的發(fā)展和廣泛應用,數(shù)據(jù)作為記錄各種人類活動的一種重要資源而呈現(xiàn)出爆發(fā)式增長,而從海量的、非結構化的數(shù)據(jù)中獲取、處理、分析、挖掘其中有價值的信息成為國內外政府、企業(yè)以及學術界的關注焦點。其中,非結構化的文本大數(shù)據(jù)作為一種新的數(shù)據(jù)源,也是最重要的信息載體之一,往往帶有明顯的領域特征和獨特的語言模式,也常常包含大量的專業(yè)詞匯,能夠為環(huán)境治理問題提供有效的信息和獨特的分析視角。例如,文本大數(shù)據(jù)可以用于測度環(huán)境政策的不確定性、量化媒體關注度以及輿論導向、不同環(huán)境治理主體的情緒對相應問題解決方式的影響、基于新聞的隱含波動因素等。
一、文本大數(shù)據(jù)的主要特征
傳統(tǒng)的數(shù)據(jù)收集往往借助于紙質媒介,體量較小,數(shù)據(jù)獲取成本高,獲取時間相對滯后;而通過互聯(lián)網(wǎng)媒介進行文本數(shù)據(jù)收集和處理,不僅成本大幅降低,數(shù)據(jù)的可得性大幅增加,數(shù)據(jù)的體量也呈現(xiàn)幾何級數(shù)增長的特征。同時,隨著網(wǎng)絡平臺發(fā)布信息普及度的提高,除了傳統(tǒng)的政府職能部門和相關機構發(fā)布信息之外,微博、微信公眾號、朋友圈、論壇帖子等新媒體形式也逐漸成為數(shù)據(jù)來源的重要渠道,文本大數(shù)據(jù)的發(fā)布主體從單一向多樣化進行轉變,頻率變得更高。通過互聯(lián)網(wǎng)平臺積累起來的數(shù)據(jù),就存儲在網(wǎng)絡空間中,文本信息即刻在網(wǎng)絡中留下痕跡,通過一定的方法和技術進行提取,信息獲取更加及時,數(shù)據(jù)獲取的成本也相對降低。通過利用互聯(lián)網(wǎng)大數(shù)據(jù)信息,可以獲取接近全體的樣本信息,海量的樣本量支持下,避免了由于信息不全面導致的錯覺以及判斷失誤,未來還將開拓更為豐富的數(shù)據(jù)源,如政府工作報告、規(guī)劃、書籍、檔案等。
二、文本大數(shù)據(jù)提取的重點和難點
文本數(shù)據(jù)是信息的抽象提煉,正是由于海量文本數(shù)據(jù)信息的存在,獲取、處理和分析文本大數(shù)據(jù)方面仍然存在一些問題,其中最重要的是如何準確并且有效率地從海量文本中提取出所需要的核心信息,并考察其對相應問題的解釋或預測能力。提取文本數(shù)據(jù)信息需要綜合考慮文本數(shù)據(jù)的來源、語言環(huán)境、內容長短、句式結構以及需提取信息的特征等因素,同時也要考慮信息提取的成本和收益。在條件允許的情況下,可以采用相對復雜的統(tǒng)計學習和深度學習相結合的信息提取方法來提高信息提取的準確性,優(yōu)化人機合作成為解決困難的重要方式。使用復雜方法時還需要保證這些方法的透明性和可復制性。最后還要注意的是,數(shù)據(jù)的結構化轉換和文本數(shù)據(jù)信息提取這兩步的執(zhí)行順序需要依靠具體問題來決定,有時需要經過多次嘗試才能找到最佳方案。
三、文本大數(shù)據(jù)在環(huán)境治理方面的應用
現(xiàn)有環(huán)境領域文本相關分析的問題主要有兩大類,一是區(qū)分文本顯示的公民的情緒正負、新聞或者文件語調正負等聚類問題,二是對情緒、不確定性、恐慌程度、意見分歧程度的度量以及相應的回歸問題。
1.文本情緒
因為情緒的變化可能會導致問題處理的結果不同,度量情緒并預測風險是文本大數(shù)據(jù)在環(huán)境治理領域的重要應用方向,典型的例子是鄰避效應。通常用“語調”來表示“情緒”,語調的不同表示了情緒的正面和負面、樂觀和悲觀、積極和消極等。根據(jù)情緒的不同主題,文本情緒的研究對象主要包括媒體語調(媒體新聞)、管理層語調(當事公司管理層討論與分析、環(huán)評報告以及其他公開披露的信息文件)、公民情緒(網(wǎng)絡論壇發(fā)帖)等。
媒體情緒度量媒體報道內容中包含的樂觀與悲觀情緒。通常來看,媒體負面語氣能夠解釋鄰避問題的風險和解決方案,但正面語氣卻沒有解釋能力。
管理層的信息披露往往能反映管理層的決策和意圖,信息公開不全面、甚至相關信息空白,環(huán)評報告獨立性存疑,相當于利益集團放大了鄰避效應,無助于問題的解決。
2.媒體關注和傾向
傳統(tǒng)的數(shù)據(jù)指標和環(huán)境問題治理之間的關系不穩(wěn)定,且只能反映部分信息,與傳統(tǒng)數(shù)據(jù)相比,文本數(shù)據(jù)覆蓋領域廣泛、信息可以被很多個體所獲取、并且新聞內容可能與當前和未來狀態(tài)密切相關。利用文本數(shù)據(jù)度量公民關注的環(huán)境問題采用的主要指標有搜索指數(shù)、閱讀頻率數(shù)據(jù)和論壇發(fā)帖量等。作為信息的制造者和傳播者,媒體的關注和傾向一方面可以影響普通公民對環(huán)境問題治理的關注,另一方面也影響信息的傳播效率和模式。
媒體對環(huán)境政策的變動和未來趨勢可能產生很重要的影響,比較典型的例子是“PM2.5”、“霧霾”等關鍵詞在一段時間內在媒體中頻繁出現(xiàn),推動了PM2.5的數(shù)據(jù)公開以及《大氣污染防治行動計劃》等一系列治理大氣污染改善空氣質量政策措施的出臺與實施。相比而言,傳統(tǒng)的自上而下的政策頒布實施時間跨度較長,而主流新聞媒體的新聞文本、網(wǎng)絡搜索短時間內同一關鍵詞頻繁出現(xiàn),對新的環(huán)境政策的實施具有明顯的促進作用。
四、推動文本大數(shù)據(jù)應用的保障措施
統(tǒng)籌規(guī)劃,協(xié)同推進文本數(shù)據(jù)資源整合,建設現(xiàn)代化高技術的數(shù)據(jù)中心,加強內部共享和動態(tài)更新;整合信息平臺,逐漸形成統(tǒng)一的互聯(lián)網(wǎng)文本數(shù)據(jù)平臺,實現(xiàn)信息的有效共享和開放交換;建立文本數(shù)據(jù)正負面清單,完善健全文本數(shù)據(jù)開放制度和機制,提高各政府部門和社會機構的文本數(shù)據(jù)開放熱情。
文本大數(shù)據(jù)為度量公民情緒提供了新的數(shù)據(jù)源。一方面,由于公民越來越傾向于選擇在網(wǎng)絡論壇上發(fā)布相關的評論帖子或者做出相關搜索,這些文本數(shù)據(jù)能直接反映他們對鄰避事件的看法、對當前狀態(tài)的解讀以及與自身決策相關的信息。另一方面,這些數(shù)據(jù)易獲得且覆蓋群體范圍廣,滿足了從不同頻率、不同層面研究情緒與鄰避風險關系的需求。加強文本大數(shù)據(jù)處理和分析的技術創(chuàng)新、建立一體化的大數(shù)據(jù)平臺和完善的數(shù)據(jù)管理體系,通過對文本大數(shù)據(jù)的高效采集、有效整合,加強對政府數(shù)據(jù)的共享開放和社會數(shù)據(jù)的挖掘應用,提升環(huán)境問題決策能力,提高風險防范水平,進一步深化環(huán)境治理的精準性和有效性。