8月9日下午,澎湃研究所邀請復旦大學國際關系與公共事務學院教授唐世平作客澎湃大樓,與在座的媒體人和學者等共同探討,決策究竟需要依賴怎樣的數據。對于所有決策者來說,其面臨的挑戰(zhàn)主要有兩重,一是信息的缺乏,二是信息處理能力的缺乏。當前社會中所提倡的大數據及人工智能技術都在逐漸減少上述兩方面的困難程度,但卻無法將兩方面充分結合。
唐世平提出,計算社會科學提倡根據實際決策面臨的問題來收集合適的數據,恰好可以填補當前信息及信息處理能力上的不足。
計算社會科學最大的優(yōu)點在于降低了決策者在決策過程中對專家的依賴。唐世平認為,傳統(tǒng)的決策科學過分依賴領域內專家的預測,但事實上,專家的判斷也出自于對以往人類社會行為的數據分析,而這一過程在未來有希望被計算社會科學的技術所替代。
選舉投票結果推算所需的“全數據”,重要的是把“全數據”理論化地整合和建構起來。這種模擬過程的優(yōu)勢在于,能夠剔除民調和社交媒體中存在的大量虛假信息對選舉結果預測的影響,從而更加精準地預判選區(qū)的投票傾向。簡單來說,只要收集到對應的“全數據”,此類技術便可被應用于預測任何社會事件的結果,從而提高決策者的效率,增加決策的合理性。
在互動環(huán)節(jié),唐世平還表示,當前社會科學研究面臨的一個較大約束就是數據收集的成本問題,因此數據的開放程度越高也就越有利于社會科學的研究。然而,從現實角度看,一個“放之四海而皆準的數據平臺”是不存在的。關于上??梢蚤_放哪些數據的提問,唐世平認為四類數據是必須的:社會安全問題問題、城市發(fā)展規(guī)劃數據、推動經濟發(fā)展與產業(yè)升級的數據,以及緊急響應機制的數據。
什么樣的數據才是計算社會科學所需要的數據?針對這一問題,唐世平介紹了“全數據”的概念。以預測美國某一個州總統(tǒng)大選的投票結果為例,唐世平解釋了這一推算過程。預測投票結果除了需要輸入基礎投票規(guī)則和有關選舉的社科研究成果外,還需要包括該州的人口數據、社交網絡分析以及地理信息數據等基礎數據。
而模擬的過程就是將州內的每個選民化作一個數據點,利用基礎數據賦予每個選民自己的特性,然后通過計算機重復模擬投票過程,直到最終的投票結果穩(wěn)定在一定區(qū)間,而這一區(qū)間即為該州對于大選投票的可能區(qū)間。整個預測所需的“全數據”包括宏觀、中觀和微觀三個層面的50余項相關數據。
唐世平指出,這類技術與我們生活的方方面面都息息相關。人們在社會日常生活中都會面臨大大小小的決策難題,大到購置房產,小到旅游出行。當決策需求變得明確,通過計算機對“全數據”進行模擬,未來人們很有可能從“選擇困難癥”中“痊愈”,生活將會因此變得更加高效。目前流行的大數據因為采集范圍過于寬泛,對于決策的幫助并不明顯。如果了解決策需求,那么只需根據社會科學的研究理論收集與問題相關的數據就足夠了,接下來的步驟就是模擬決策過程,從而推算出某個決策可能出現的概率或是某種決策可能引出的結果。