社會科學大數(shù)據(jù)技術計算
大數(shù)據(jù)時代大量基于網(wǎng)絡、社交媒體、人工智能、傳感器等產(chǎn)生的實時電子印記數(shù)據(jù),從網(wǎng)絡上的集體活動、社交媒體、即時通信到在線交易、政府情報和數(shù)字化圖書館,越來越多的社會生活留在電子文本中。為探索大數(shù)據(jù)研究的跨學科方法論,促進學科整合與創(chuàng)新,由清華大學社會科學學院主辦,清華大學社會網(wǎng)絡研究中心(CSNR)、清華大學數(shù)據(jù)科學研究院(IDS)承辦的“2019社會計算國際會議”(2019 International Conference of Social Computing)在清華大學召開,邀請全球學者在大數(shù)據(jù)分析方法與社會科學的交叉領域進行交流和溝通。
大數(shù)據(jù)的出現(xiàn)和計算機技術的發(fā)展為社會計算帶來了新的研究方法的革命,使得研究設計、分析方法到理論建立都有了新的改變。大數(shù)據(jù)和調查數(shù)據(jù)結合,產(chǎn)生了一種理論視角下新的研究范式。芝加哥大學社會學系James A. Evans首先闡釋計算社會科學使用計算機來生成數(shù)據(jù)、發(fā)現(xiàn)其中的模式和規(guī)律,或生成和檢驗解釋(explanations)。他勾勒出了社會計算的愿景,結合其研究內(nèi)容及計算社會科學領域最新研究闡述了如何利用數(shù)據(jù)計算來理解社會,分析復雜、動態(tài)、自適應的社會系統(tǒng)以及人機交互的過程中何以形成更為強大的智能。
研究者可以從中發(fā)現(xiàn)現(xiàn)象、尋求解釋因素、進行社會計算,以前所未有的廣度、深度和規(guī)模利用、收集和分析數(shù)據(jù)。參會者針對各自研究領域,所使用的大數(shù)據(jù)涵蓋了社交網(wǎng)絡、維基百科、Github網(wǎng)站數(shù)據(jù)分析、組織中員工社交數(shù)據(jù)、微博數(shù)據(jù)、社會經(jīng)濟相關的電子印記數(shù)據(jù)等。
當這些大數(shù)據(jù)結合社會科學傳統(tǒng)的定性、定量調查,新的研究范式應運而生。采用傳統(tǒng)調查方法收集局部、及時的扎根真相,將社會科學的問題意識、扎根真相與現(xiàn)有的大數(shù)據(jù)相結合形成預測模型,從而在更易獲得的相同的大數(shù)據(jù)維度下進行推論。扎根真相和大數(shù)據(jù)的結合為數(shù)據(jù)挖掘、理論建模以及預測算法構建的三角間往復對話提供了可能,一方面使理論不斷改善,另一方面使預測算法更加精確,進而可以推論并解釋更多現(xiàn)象。
這種研究范式的推理過程采用的是Charles Sanders Pierce提出的溯因推理(abduction),而不僅僅是歸納(induction)和演繹(deduction),是一種開始于事實、想象的集合,并推導出其最佳解釋的推理過程。與計算社會科學研究中首先基于數(shù)據(jù)和理論雙驅動,在大數(shù)據(jù)挖掘出有趣的現(xiàn)象,然后結合理論來預測或模擬推導其解釋的過程不謀而合。抽樣方式也從原來的全樣本的隨機抽樣(random sampling)轉變?yōu)樽钸m化抽樣(optimized sampling),即局部抽樣建立預測模型,不斷使得預測模型與理論對話,使得預測模型逼近最優(yōu),最終采用相同的大數(shù)據(jù)預測因子輸入預測模型中進行推論。
目前社會計算領域同時致力于開發(fā)和改進一些算法來解決社會計算的問題,其中包括機器學習、數(shù)據(jù)挖掘、網(wǎng)絡分析、自然語言處理、深度學習等內(nèi)容分析、數(shù)據(jù)挖掘和預測模型建立。
北京師范大學系統(tǒng)科學學院的張江、樊瑛分別分析了復雜系統(tǒng)當中運用簡單規(guī)則建模和運用深度學習建模各自的利弊,并展示了其團隊關于用于網(wǎng)絡重構和動態(tài)學習的深度學習框架的研究。清華大學計算機系的劉知遠改進自然語言分析技術和圖神經(jīng)網(wǎng)絡算法,可以應用于推薦、預測等多個領域。
復旦大學計算機學院陳陽副教授使用深度學習檢測在線開發(fā)者社區(qū)中的惡意賬戶,其他學者也多使用大數(shù)據(jù)集成的機器學習算法等進行預測,同時不乏結合回歸模型來進行理論的驗證和探究。模型和方法的改進可更好地挖掘數(shù)據(jù)中的價值,也使得社會預測的準確率更高,為一些社會現(xiàn)象提供了更加微觀或中層的模式(pattern)和規(guī)律的解釋路徑,從而可以建構并逐步完善社會科學理論。
在大數(shù)據(jù)和社會科學結合中,社會科學調查發(fā)揮了確立問題意識以及提供扎根真相的作用,理論為大數(shù)據(jù)開啟了很多新議題,為構建的預測模型賦予更具推論性的價值,因為只有形成理論才可以在不同領域、時間、空間的條件下進行推論。
依照以上方法論和技術的創(chuàng)新,學者們在不同領域進行了研究,范圍廣泛,內(nèi)容多樣。其中清華大學社會學系羅家德試圖探討中國人的人脈圈層到底可以劃分為幾層。在開展調查收集到用戶之間的關系強度的扎根真相后,找到這些用戶在社交軟件中留下的互動的印記數(shù)據(jù)并整理出指標,結合扎根真相訓練建立分類模型,不斷尋找準確率最高的劃分方式,從而得到合適的圈層劃分方式,讓這種研究對象在一定的情境(context)變得可被測量,這就體現(xiàn)了大數(shù)據(jù)和調查數(shù)據(jù)的相互對話的價值。
豐富的研究問題為社會計算的發(fā)展注入了活力。目前,不管是在研究問題、算法模型還是理論與數(shù)據(jù)挖掘、預測模型的結合中,還均處于不斷探索當中。理論、數(shù)據(jù)挖掘與預測模型的不斷對話將會推動更多理論的驗證、修正,或是新的理論的發(fā)現(xiàn),同時使得研究動態(tài)的個體、個體間的關系和互動、從小團體的結構變化到宏觀的網(wǎng)絡的變化,從而如何涌現(xiàn)出集體行動(如重大創(chuàng)新、社會運動、革命爆發(fā)等)和復雜社會系統(tǒng)的非常態(tài)演化(如金融風暴、景氣突轉、社會變遷)成為可能。
電子科技大學周濤利用學生生活和學習活動的實時記錄,開展數(shù)據(jù)驅動的關于智能教育的研究。清華大學孟天廣利用大數(shù)據(jù),關注中國共產(chǎn)黨黨員的入黨問題。清華大學蘇毓淞主要關注中國審查制度的縱向戰(zhàn)略,即利用微博數(shù)據(jù)來觀察政府對于輿論的審查等。來自芝加哥大學、麻省理工學院、斯坦福大學、哥廷根大學、法蘭克福大學、牛津大學、香港中文大學、清華大學、復旦大學、北京師范大學等10余所高校不同學科背景的20多位專家學者就會議主題進行了學術演講與交流討論。