算法偏見(jiàn)更難辨認(rèn)也更持久,比人腦更復(fù)雜
人們最初確實(shí)天真地以為,算法能比人類更能避免偏見(jiàn)。人工智能學(xué)習(xí)人類知識(shí),同時(shí)也吸收人類偏見(jiàn)。這種擔(dān)憂由來(lái)已久。但谷歌的一項(xiàng)新發(fā)明極大推進(jìn)了人工智能從文本材料中學(xué)習(xí)的速度,也使解決機(jī)器偏見(jiàn)問(wèn)題迫在眉睫。
10 月 25 日,谷歌宣布利用 BERT 來(lái)優(yōu)化搜索引擎,已經(jīng)使英語(yǔ)搜索結(jié)果的匹配度提高了 10% 左右。未來(lái),谷歌還會(huì)推出學(xué)習(xí)其他語(yǔ)言和國(guó)家的算法。
BERT 是谷歌在 2018 年開(kāi)發(fā)的一種基于神經(jīng)網(wǎng)絡(luò)的 NLP 技術(shù),它能一次接收整句話,而非從左至右(或相反)逐字接收。這使得如果有人要搜“在沒(méi)有路緣的山坡停車”,BERT 能認(rèn)出“不要”,從而給出正確的搜索結(jié)果。而傳統(tǒng)搜索引起只會(huì)關(guān)注“路緣”和“山坡”,給出與搜索意圖相反的結(jié)果。
圖 | BERT 能更好識(shí)別“在沒(méi)有路緣的山坡停車”句子里的“沒(méi)有”一詞,從而理解人類意圖
讓人們擔(dān)憂的是,BERT 的學(xué)習(xí)材料正來(lái)自數(shù)字化書籍和新聞文章。在 BERT 學(xué)會(huì)一切之前,人們沒(méi)有時(shí)間來(lái)清理其中根深蒂固的偏見(jiàn)。而這些偏見(jiàn)一旦被算法吸收,將更難辨認(rèn),也更難清除。
“形象一下在 AI 世界長(zhǎng)大的孩子。他們?cè)诠雀杷阉?CEO 照片,冒出的大部分是男性。他們又搜索個(gè)人助手,大部分是女性。”Kriti Sharma 在一次 TED 相關(guān)演講中說(shuō)??突仿〈髮W(xué)的計(jì)算機(jī)科學(xué)家已研究證實(shí),BERT 傾向于將程序員與男性聯(lián)系起來(lái)。
另一位計(jì)算機(jī)科學(xué)家 Robert Munro 發(fā)現(xiàn),展示給 BERT 100 個(gè)單詞,包含馬、嬰兒、房子、珠寶等。BERT 會(huì)認(rèn)為大部分與男性有關(guān),僅媽媽是個(gè)例外。
“BERT 改變了一切,你可以教它所有技巧。”NLP 初創(chuàng)公司 Primer 的科學(xué)主管 John Bohannon 說(shuō)。Munro 則認(rèn)為,不平等現(xiàn)象一直存在,但有了 BERT,偏見(jiàn)就能夠繼續(xù)存在下去。
“是時(shí)候把算法當(dāng)作人類設(shè)計(jì)的造物了。”人工智能批評(píng)人士 Kate Crawford 說(shuō),算法經(jīng)常被看作是不帶偏見(jiàn)、不可理解、勿需質(zhì)疑的對(duì)象,但實(shí)際它會(huì)繼承我們的偏見(jiàn),它只可能跟我們一樣好。
決策黑盒為偏見(jiàn)“藏污納垢”
人們最初確實(shí)天真地以為,算法能比人類更能避免偏見(jiàn)。1970 年代,倫敦圣喬治醫(yī)學(xué)院的 Geoffrey Franglen 博士著手編寫一個(gè)算法來(lái)篩選學(xué)生的入學(xué)申請(qǐng)。他認(rèn)為,如果所有學(xué)生的申請(qǐng)都要遵循完全一樣的評(píng)估流程,結(jié)果就是公平的。
算法完成后與人類判斷有 90% 到 95% 的一致率,因此被投入使用。但直到 4 年后,調(diào)查者才發(fā)現(xiàn):算法會(huì)僅僅因?yàn)橐粋€(gè)候選人沒(méi)有歐洲名字(可能不是白人),就扣除 15 分。如果申請(qǐng)者是女性,又要被扣掉 3 分。
“從深層次看,算法只是在維持招生系統(tǒng)早已存在的偏見(jiàn)而已。”IEEE 的文章評(píng)論說(shuō),“圣喬治醫(yī)學(xué)院之所以被逮住,是因?yàn)樗麄儼哑?jiàn)供奉到一個(gè)計(jì)算機(jī)程序里面,歧視是調(diào)查者可以驗(yàn)證的。”
但對(duì)于人工智能的黑箱式?jīng)Q策,情況變得更加復(fù)雜。性別或出生地在算法中并不對(duì)應(yīng)單一可辨的參數(shù),你很難給機(jī)器“定罪”。“在大工業(yè)時(shí)代,機(jī)器以暴露齒輪來(lái)展示強(qiáng)大。但如今,齒輪被隱藏起來(lái),融入生活,無(wú)處不在,AI 就是這個(gè)齒輪。”一篇《福布斯》文章精辟地說(shuō)。
在這種黑箱決策面前,反歧視法案可能也無(wú)能為力。Kriti Sharma 認(rèn)為,如果 AI 幫人事主管尋找一位技術(shù)領(lǐng)袖,它會(huì)發(fā)現(xiàn)主管雇傭的大多是男性,從而以為男人比女人更容易編程。如果人類主管這樣做,我們會(huì)憤怒,也能夠阻止。“人工智能實(shí)際已凌駕于法律之上,因?yàn)槭菣C(jī)器做的決定。”
更值得擔(dān)憂的是,AI 決策可能放大了科技企業(yè)和數(shù)據(jù)標(biāo)注者的權(quán)力,因?yàn)闊o(wú)人能監(jiān)督。一個(gè)名為 ImageNet Roulette 的流行應(yīng)用,曾故意向人們展示這種風(fēng)險(xiǎn):它曾傾向于將非洲裔美國(guó)人標(biāo)記為“不法分子”“罪犯”,此外還有“失敗者”“初學(xué)者”“蕩婦”這樣的標(biāo)簽。
圖 | ImageNet 展示了為人們打上刻板標(biāo)簽的權(quán)力,如何從拿低薪的標(biāo)注者手中轉(zhuǎn)移到算法上
它的訓(xùn)練數(shù)據(jù)來(lái)自 ImageNet 數(shù)據(jù)集,包含了 1400 張被標(biāo)記的照片,而每張標(biāo)記費(fèi)用為幾美分。因此標(biāo)簽標(biāo)注者的偏見(jiàn)便被帶入數(shù)據(jù)集,訓(xùn)練出各種算法,應(yīng)用在形形色色的領(lǐng)域。“如果標(biāo)注女性照片的人不選非二元人群或短發(fā)女性,那最終得到的人工智能就只認(rèn)長(zhǎng)發(fā)的女性模特。”
在被發(fā)現(xiàn)算法存在機(jī)器偏見(jiàn)時(shí),谷歌和亞馬遜都會(huì)承諾迅速解決。“我們發(fā)現(xiàn)的明顯的偏見(jiàn),但里面如果還有幾個(gè)呢?”Bohannon 博士說(shuō)。如果要依賴這種決策,“正如生物學(xué)家努力理解細(xì)胞工作原理一樣,軟件工程師也必須找到理解 BERT 系統(tǒng)的方法。”