身為記者,你是否曾因要閱讀上千份文件報告而感到心力交瘁?現在,你可以將這些機械的工作慢慢交給人工智能了。
身為記者,你是否曾因要閱讀上千份文件報告或是整理數百萬條資料而感到心力交瘁?現在,你可以將這些機械的工作慢慢交給人工智能了,它可以模仿人類進行學習、推理,并進行自我修正。
對于如何在報道中運用人工智能進行輔助工作,BBC的數據新聞記者Paul Bradshaw 在第11屆全球深度報道大會上分享了他的心得。
確定范圍
在進行調查報道的過程中,有時你的直覺會告訴你,事實上真相比你手頭收集到的不痛不癢的資料要大得多,但很難確定這個范圍究竟有多大,“我們需要知道有多少人受到了此事影響,或者此事已經持續(xù)多久了?!?/p>
經過訓練的算法能夠透過特定的文字模式分析大量的文件,以圈定哪些屬于相關聯的內容,Atlanta Journal-ConstituTIon就成功地訓練出了能夠處理性騷擾案件文檔的算法,這則算法能夠快速分析大量的相似文件,為記者們提供更多的調查線索。
確定問題
人工智能可以用來確認問題。瑞士廣播機構Schweizer Radio und Fernsehen運用多種要素規(guī)則,成功地訓練出了能夠檢測虛假社交媒體賬號的算法,他們使用這則算法去分析一名瑞士意見領袖的粉絲,發(fā)現高達他三分之一的粉絲全部都是虛假賬戶。
了解語境
相比于單單分析詞匯,自然語言處理算法(Natural Language Processing,NLP)能夠將詞匯所處的語境、講話人的意圖也納入分析研究之中。此前,ProPublica就分析了競選活動是如何根據受眾的微妙不同,向選民們發(fā)送定制化、個性化的宣傳電郵的。而這一切都基于算法對于選民的了解。
然而自然語言處理算法也為此受到了批評,因為這種算法是在一個特定的文化語境中被訓練出來的,這也意味著它會潛在地帶有某種特定的性別和種族偏見。
找到線索
人工智能可以輔助進行語言模式的檢測,從而理解文字背后蘊藏的情緒,當然也能夠發(fā)現改動的痕跡,這在分析上千頁的文件時尤其有用。
《華盛頓郵報》曾經取得了美國國際開發(fā)署監(jiān)察辦公室的12份審計文件的草案,他們在人工智能的幫助下,將草案與最終版本進行對比,發(fā)現任何表達負面情緒、或被理解為批評的詞匯語句,在正式發(fā)布版本中都被刪去了。
定位機器生成內容
機器生成的內容正在互聯網上泛濫,借助人工智能,你可以分辨出哪些是機器生成的內容、哪些是由人類撰寫,這會對你的調查報道非常有用。
從大數據中找到頭緒
人工智能可以從大型定量數據中挖掘出線索。舉個例子,對于工資的分析可以得出哪間學校的老師拿到了最多的錢,或是不同性別的收入差異?!斑@就能為你找到突破口,讓你明白需要找哪些對象進行采訪?!盉radshaw說。
解碼專業(yè)術語
無論是政府、商業(yè)公司,還是NGO,甚至是記者自己都很喜歡使用專業(yè)術語,但這些語言很難被外人所理解的,分析起來就更難了。而人工智能可以對語言和行文模式進行處理分析,將那些專業(yè)術語進行解碼。
分析關系網
同一個實體在不同的文件中有時候會用不同文字進行指稱,人工智能可以對這些關系網進行集中分析,辨認歸納出那些字面名稱不一致、但實際上是同一實體的人或機構。舉個例子,人工智能可以同一實體的財產記錄、稅收數據以及其他信息進行比對,即便他們被記錄在案的名字不同。
分析無人機與衛(wèi)星影像
人工智能同樣可以對無人機拍攝的影片、衛(wèi)星影像進行分析,為你的調查提供線索與目標。它們同樣能夠分析處理傳感器的資料,這樣你就不需要親自一條條檢視大量數據了。
歸納總結
ORC技術能夠對攝影、手寫或印刷的文字進行閱讀識別,進而將其轉換為可進行檢索的文件格式。人工智能也能用同樣的方法處理音像與影像內容,并將完整內容總結成為簡明的概要。
這項技術目前還未臻完美,所以你需要對可能出現的錯誤做好心理準備。不過即便如此,它還是可以為記者大大減負。
充當你的私人助理
你可以使用人工智能來定制個性化服務,生成標題、翻譯以及設定智能回復機器人。舉個例子,對于一宗全國性的大型調查報道,機器人能夠面向各地生成有針對性的、本土化的標題和文章,吸引當地讀者。它們同樣能夠24小時全年無休地與你的讀者就故事進行互動,讓他們獲得更高的參與感。
但人工智能技術當然也有自身的缺陷:它并不是百分百準確的,也會受到來自不同文化的偏見影響。當你使用這種自動生成的內容時,你需要想想看你要在多大程度上保留編輯權限。
Bradshaw說:“根本上,你需要記住的是人工智能到底還是一項工具。它和任何工具一樣,只局限地存在于文化的語境之中。并且,機器學習始終是一種概算與推定,絕對不可能做到百分之百正確?!?/p>
本文:全球深度報道網