臉書最近真可謂麻煩纏身,假新聞、恐怖主義、泄露用戶數(shù)據(jù)等等一系列丑聞全都主動找上門來,讓這個即使有著最龐大用戶基礎(chǔ)的社交軟件也有點吃不消。面對公眾的諸多質(zhì)疑,臉書給出的答案似乎也很簡單,那就是利用人工智能(AI)來解決眼前的這些煩惱。
觀看上個月的兩場聽證會時你會發(fā)現(xiàn),公司CEO扎格伯格在向記者和議員們解釋未來將如何管制平臺內(nèi)容時,“AI”這個詞在他的談話中居然出現(xiàn)了30多次。臉書CTO邁克·斯科洛普夫,這個負(fù)責(zé)將扎克伯克對公眾的允諾變?yōu)楝F(xiàn)實的男人,在一場記者發(fā)布會上又再次接過這個話題,進一步向人們展示公司有能力利用AI技術(shù)幫助自己走出眼下的困境。“AI是保護社區(qū)安全的最好辦法”。不過,有些人顯然并不買賬,一些批評人士就指出,臉書此舉是在混淆視聽,讓人們誤以為這家公司面臨的挑戰(zhàn)僅僅是技術(shù)方面的。斯科洛普夫?qū)Υ吮硎?,即使公司有能力雇傭人力來挨個檢查每一條消息,我們也不會這么做。“如果我告訴你你要發(fā)送的每條消息在發(fā)布之前都會有一個人對它們進行檢查,你可能就會考慮一下是不是要修改一下原文內(nèi)容,這正是我們不愿看到的”。
臉書對AI技術(shù)的早期布局:“照片DNA”
事實上,臉書早在2011年的時候就已經(jīng)開始使用AI技術(shù)管理平臺了。當(dāng)時的臉書使用了一種被稱為“照片DNA”的軟件技術(shù),用來檢測平臺上出現(xiàn)的諸如兒童色情圖片等不良內(nèi)容。根據(jù)斯科洛普夫的表述,這款軟件的算法已經(jīng)有了穩(wěn)步的提升,能夠?qū)δ切┢脚_想驅(qū)逐的內(nèi)容進行標(biāo)記。裸露和色情圖像比較容易識別,充滿血腥和暴力的圖像,比如IS斬首俘虜?shù)漠嬅妫捎谑侵鹣袼氐募墑e,所以一開始比較難識別,但現(xiàn)在這個問題已經(jīng)被我們解決了。
“照片DNA”最初是由微軟公司開發(fā)的一款信息篩選軟件,后來達特茅斯學(xué)院一個名為Hany Farid的教授對其做了進一步改進,才逐漸被投入使用。該技術(shù)會對圖片、視頻和音頻文件的哈希值進行計算,最終會得出一個數(shù)字簽名。類似人手的指紋,每個簽名都是獨一無二的。這樣只需要將違規(guī)圖片的哈希值和平臺上傳的圖片的哈希值進行比對,一旦結(jié)果匹配基本就能斷定平臺圖片是違規(guī)圖片的復(fù)制品了,這樣就能有效的防止色情圖片的多次傳播。很多科技巨頭都已經(jīng)采用了這一技術(shù),包括谷歌、推特、Adobe等。當(dāng)然,技術(shù)都有兩面性,這項功能強大的技術(shù)收獲一番好評的同時也為自身惹來了非議。
2014年,谷歌曾利用“照片DNA”技術(shù)檢測出某個用戶的郵箱含有兒童色請圖片,該名用戶也為此進了監(jiān)獄。就在周圍人群一片掌聲,紛紛慶祝正義得到維護的時候,也有人表達了對谷歌利用這一技術(shù)侵犯用戶隱私的擔(dān)憂。谷歌對此回應(yīng)稱,未來只會用該技術(shù)打擊兒童性虐待事件,至于谷歌是否會信守承諾我們也不得而知了。
臉書的困境之一:如何正確識別語言
利用AI定位色情圖片對臉書來講可能已經(jīng)是小菜一碟,然而打擊假新聞、網(wǎng)絡(luò)騷擾和各種虛假宣傳活動要面臨的困難要大得多。畢竟前者是用看的,而后者是需要讀的,機器識別語言的能力是否能夠滿足需求還是一個很大的未知數(shù)。斯科洛普夫?qū)Υ吮硎?,臉書在最近的幾個月中已經(jīng)投入了大量的人力物力來解決假廣告和假新聞問題。扎克伯格也曾告訴記者,他計劃花三年的時間來打造更好的系統(tǒng),以期肅清那些人們不想看到的內(nèi)容。
盡管網(wǎng)絡(luò)搜索和自動翻譯技術(shù)已經(jīng)取得重大突破,但在識別語言情景和細小差別上,各種軟件的短板依然十分突出,很難投入使用。畢竟,AI本質(zhì)上只是一種技術(shù),再怎么進化似乎也很難和人腦比肩。在周三舉行的一次主旨演講中,負(fù)責(zé)臉書AI業(yè)務(wù)的部門主管Srinivas Narayanan,在向人們解釋AI和機器學(xué)習(xí)遭遇的困難時就曾用到“看看那只豬!”這樣的表述。
不過,臉書的算法在閱讀方面也確實取得一些進步。前不久,公司發(fā)言人曾對外透露,臉書去年部署的一項搜尋自殘行為的軟件已經(jīng)取得顯著成效,第一目擊者總共收到1000多個電話。僅今年第一季度,語言算法就為臉書發(fā)現(xiàn)并刪除200萬份與恐怖分子有關(guān)的內(nèi)容。
Schroepfer稱臉書已經(jīng)對欺凌檢測軟件做了改進,未來它們的功能會更加強大。據(jù)悉,一些專門軟件會自動生成辱罵性的語言,工作人員會使用這些虛假的語言數(shù)據(jù)訓(xùn)練欺凌檢測軟件。兩者之間的對抗性訓(xùn)練使彼此的功能愈發(fā)完善,最終真正收到一加一大于二的效果。
臉書的困境之二:如何克服多語言的工作環(huán)境
臉書的語言技術(shù)在英語的環(huán)境下效果最佳,這并不僅僅是因為這家公司的總部位于美國,更大一部分原因在于臉書訓(xùn)練技術(shù)軟件的文本基本上都是從網(wǎng)上直接抓取的,而互聯(lián)網(wǎng)的參與者絕大多數(shù)都是說英語的。統(tǒng)計數(shù)據(jù)顯示,超過一半的臉書用戶來自非英語國家,這樣形勢就顯得很嚴(yán)峻了。對于一些高度依賴臉書作為社交工具的國家來講,其代價有可能是致命的。
2017年,緬甸發(fā)生羅興亞穆斯林種族清洗事件,聯(lián)合國官員經(jīng)調(diào)查后,認(rèn)為臉書在散播仇恨羅興亞人言論的活動中起到了推波助瀾的作用。臉書方面對此回應(yīng)稱,承認(rèn)擅長緬甸語的內(nèi)容審查者數(shù)量不多并對此表示深深的歉意。據(jù)悉,臉書目前正在開展一項代號為“繆斯”的計劃,未來將有可能使該公司的語言技術(shù)在不增加訓(xùn)練數(shù)據(jù)的基礎(chǔ)上實現(xiàn)多語言服務(wù)。但在這項計劃尚未具備實用價值之前,臉書只能不斷收集新數(shù)據(jù)來改善它在其他語言環(huán)境下的工作能力。
目前來看,臉書的進度似乎仍然停留在十分緩慢的狀態(tài),僅從緬甸這件事上就能看出,這家科技巨頭并未在世界各國分配自己的語言資源。在周二舉行的會議上,臉書的產(chǎn)品經(jīng)理Tessa Lyons-Laing發(fā)言稱,臉書的機器學(xué)習(xí)軟件正在向事實檢查人員學(xué)習(xí)標(biāo)記錯誤信息,不過這要建立在臉書已經(jīng)與當(dāng)?shù)氐氖聦崣z查組織建立合作關(guān)系而且他們收集了豐富的數(shù)據(jù)的基礎(chǔ)之上。除此之外的地區(qū),臉書還沒有辦法部署語言技術(shù)軟件。
寫在最后
Schroepfer曾向人們坦言,在不增加人力的基礎(chǔ)上推動AI的發(fā)展一直都是臉書的主要策略。就在周三的時候,臉書的研究人員向人們展示,數(shù)十億個“電報”標(biāo)簽是如何為其提供免費的數(shù)據(jù)源的,這在圖像識別領(lǐng)域還創(chuàng)下了新的記錄。
不過要想解決臉書面臨的諸多難題,沒有人為判斷是萬萬不可的。當(dāng)人們想預(yù)先判斷什么可為什么不可為的時候,AI是絕對不可以替代人類的位置的。它只是個工具而已,決定權(quán)依然要歸它的主人——也就是人類。