人工智能可以幫助記者干什么
身為記者,你是否曾因要閱讀上千份文件報(bào)告而感到心力交瘁?現(xiàn)在,你可以將這些機(jī)械的工作慢慢交給人工智能了。
身為記者,你是否曾因要閱讀上千份文件報(bào)告或是整理數(shù)百萬(wàn)條資料而感到心力交瘁?現(xiàn)在,你可以將這些機(jī)械的工作慢慢交給人工智能了,它可以模仿人類進(jìn)行學(xué)習(xí)、推理,并進(jìn)行自我修正。
對(duì)于如何在報(bào)道中運(yùn)用人工智能進(jìn)行輔助工作,BBC的數(shù)據(jù)新聞?dòng)浾逷aul Bradshaw 在第11屆全球深度報(bào)道大會(huì)上分享了他的心得。
確定范圍
在進(jìn)行調(diào)查報(bào)道的過(guò)程中,有時(shí)你的直覺會(huì)告訴你,事實(shí)上真相比你手頭收集到的不痛不癢的資料要大得多,但很難確定這個(gè)范圍究竟有多大,“我們需要知道有多少人受到了此事影響,或者此事已經(jīng)持續(xù)多久了。”
經(jīng)過(guò)訓(xùn)練的算法能夠透過(guò)特定的文字模式分析大量的文件,以圈定哪些屬于相關(guān)聯(lián)的內(nèi)容,Atlanta Journal-ConstituTIon就成功地訓(xùn)練出了能夠處理性騷擾案件文檔的算法,這則算法能夠快速分析大量的相似文件,為記者們提供更多的調(diào)查線索。
確定問題
人工智能可以用來(lái)確認(rèn)問題。瑞士廣播機(jī)構(gòu)Schweizer Radio und Fernsehen運(yùn)用多種要素規(guī)則,成功地訓(xùn)練出了能夠檢測(cè)虛假社交媒體賬號(hào)的算法,他們使用這則算法去分析一名瑞士意見領(lǐng)袖的粉絲,發(fā)現(xiàn)高達(dá)他三分之一的粉絲全部都是虛假賬戶。
了解語(yǔ)境
相比于單單分析詞匯,自然語(yǔ)言處理算法(Natural Language Processing,NLP)能夠?qū)⒃~匯所處的語(yǔ)境、講話人的意圖也納入分析研究之中。此前,ProPublica就分析了競(jìng)選活動(dòng)是如何根據(jù)受眾的微妙不同,向選民們發(fā)送定制化、個(gè)性化的宣傳電郵的。而這一切都基于算法對(duì)于選民的了解。
然而自然語(yǔ)言處理算法也為此受到了批評(píng),因?yàn)檫@種算法是在一個(gè)特定的文化語(yǔ)境中被訓(xùn)練出來(lái)的,這也意味著它會(huì)潛在地帶有某種特定的性別和種族偏見。
找到線索
人工智能可以輔助進(jìn)行語(yǔ)言模式的檢測(cè),從而理解文字背后蘊(yùn)藏的情緒,當(dāng)然也能夠發(fā)現(xiàn)改動(dòng)的痕跡,這在分析上千頁(yè)的文件時(shí)尤其有用。
《華盛頓郵報(bào)》曾經(jīng)取得了美國(guó)國(guó)際開發(fā)署監(jiān)察辦公室的12份審計(jì)文件的草案,他們?cè)谌斯ぶ悄艿膸椭?,將草案與最終版本進(jìn)行對(duì)比,發(fā)現(xiàn)任何表達(dá)負(fù)面情緒、或被理解為批評(píng)的詞匯語(yǔ)句,在正式發(fā)布版本中都被刪去了。
定位機(jī)器生成內(nèi)容
機(jī)器生成的內(nèi)容正在互聯(lián)網(wǎng)上泛濫,借助人工智能,你可以分辨出哪些是機(jī)器生成的內(nèi)容、哪些是由人類撰寫,這會(huì)對(duì)你的調(diào)查報(bào)道非常有用。
從大數(shù)據(jù)中找到頭緒
人工智能可以從大型定量數(shù)據(jù)中挖掘出線索。舉個(gè)例子,對(duì)于工資的分析可以得出哪間學(xué)校的老師拿到了最多的錢,或是不同性別的收入差異。“這就能為你找到突破口,讓你明白需要找哪些對(duì)象進(jìn)行采訪?!盉radshaw說(shuō)。
解碼專業(yè)術(shù)語(yǔ)
無(wú)論是政府、商業(yè)公司,還是NGO,甚至是記者自己都很喜歡使用專業(yè)術(shù)語(yǔ),但這些語(yǔ)言很難被外人所理解的,分析起來(lái)就更難了。而人工智能可以對(duì)語(yǔ)言和行文模式進(jìn)行處理分析,將那些專業(yè)術(shù)語(yǔ)進(jìn)行解碼。
分析關(guān)系網(wǎng)
同一個(gè)實(shí)體在不同的文件中有時(shí)候會(huì)用不同文字進(jìn)行指稱,人工智能可以對(duì)這些關(guān)系網(wǎng)進(jìn)行集中分析,辨認(rèn)歸納出那些字面名稱不一致、但實(shí)際上是同一實(shí)體的人或機(jī)構(gòu)。舉個(gè)例子,人工智能可以同一實(shí)體的財(cái)產(chǎn)記錄、稅收數(shù)據(jù)以及其他信息進(jìn)行比對(duì),即便他們被記錄在案的名字不同。
分析無(wú)人機(jī)與衛(wèi)星影像
人工智能同樣可以對(duì)無(wú)人機(jī)拍攝的影片、衛(wèi)星影像進(jìn)行分析,為你的調(diào)查提供線索與目標(biāo)。它們同樣能夠分析處理傳感器的資料,這樣你就不需要親自一條條檢視大量數(shù)據(jù)了。
歸納總結(jié)
ORC技術(shù)能夠?qū)z影、手寫或印刷的文字進(jìn)行閱讀識(shí)別,進(jìn)而將其轉(zhuǎn)換為可進(jìn)行檢索的文件格式。人工智能也能用同樣的方法處理音像與影像內(nèi)容,并將完整內(nèi)容總結(jié)成為簡(jiǎn)明的概要。
這項(xiàng)技術(shù)目前還未臻完美,所以你需要對(duì)可能出現(xiàn)的錯(cuò)誤做好心理準(zhǔn)備。不過(guò)即便如此,它還是可以為記者大大減負(fù)。
充當(dāng)你的私人助理
你可以使用人工智能來(lái)定制個(gè)性化服務(wù),生成標(biāo)題、翻譯以及設(shè)定智能回復(fù)機(jī)器人。舉個(gè)例子,對(duì)于一宗全國(guó)性的大型調(diào)查報(bào)道,機(jī)器人能夠面向各地生成有針對(duì)性的、本土化的標(biāo)題和文章,吸引當(dāng)?shù)刈x者。它們同樣能夠24小時(shí)全年無(wú)休地與你的讀者就故事進(jìn)行互動(dòng),讓他們獲得更高的參與感。
但人工智能技術(shù)當(dāng)然也有自身的缺陷:它并不是百分百準(zhǔn)確的,也會(huì)受到來(lái)自不同文化的偏見影響。當(dāng)你使用這種自動(dòng)生成的內(nèi)容時(shí),你需要想想看你要在多大程度上保留編輯權(quán)限。
Bradshaw說(shuō):“根本上,你需要記住的是人工智能到底還是一項(xiàng)工具。它和任何工具一樣,只局限地存在于文化的語(yǔ)境之中。并且,機(jī)器學(xué)習(xí)始終是一種概算與推定,絕對(duì)不可能做到百分之百正確?!?/p>
本文:全球深度報(bào)道網(wǎng)