由于深度學(xué)習(xí)的普及,近年來機器學(xué)習(xí)研究蒸蒸日上,人臉識別技術(shù)也得到了極大的改善。在一個典型的用例中,照片、視頻或?qū)崟r流媒體中的人臉會被掃描、分析,接著,它們的特征會被拿來與數(shù)據(jù)庫中注釋過的人臉進行比較。
這項技術(shù)正被用于打擊人口販運和機場快速安檢,同時它也被用于監(jiān)視音樂會、體育賽事。
然而,面部識別的準確性仍是一個問題。研究人員開始擔(dān)心人工智能系統(tǒng)中存在的歧視和偏見。該技術(shù)在正確識別有色人種和女性等方面還存在著重大缺陷。造成這一問題的原因之一,是數(shù)據(jù)集里男性相對于女性、白人相對有色人種的懸殊比例。
對機器訓(xùn)練來說,數(shù)據(jù)多樣性很重要,但數(shù)據(jù)的體量大小也同樣重要。人臉識別系統(tǒng)的訓(xùn)練和測試需要在數(shù)百萬甚至數(shù)千萬張人臉上進行。
多年來,研究人員一直通過人臉識別數(shù)據(jù)集來進行相關(guān)研究。這個包含圖片鏈接的數(shù)據(jù)集都是從一個資源包中整理生成。該資源包被用于各種各樣的科學(xué)項目研究,包括在不使用地理坐標的情況下估算照片和視頻的拍攝地點的研究。
IBM開發(fā)了一個名為“人臉多樣性”的新項目,并為其準備了上百萬張圖片,該項目將進一步提升人臉識別的公平性和準確性。
研究人員們通過互聯(lián)網(wǎng)收集并注釋了各類物體的照片,以此來訓(xùn)練電腦,讓其可以更好地了解它們周圍的世界。
通常,他們通過谷歌圖片搜索和一些其他的途徑獲取數(shù)量巨大的圖片。得到的數(shù)據(jù)集通常被用于學(xué)術(shù)研究,比如訓(xùn)練或測試人臉識別算法。但隨著微軟、亞馬遜、臉書和谷歌等公司押寶人工智能,人臉識別正走出實驗室,進入大型企業(yè)的視野中。
隨著消費者意識到他們在互聯(lián)網(wǎng)上留下的數(shù)據(jù)能夠產(chǎn)生的巨大威力,人臉識別數(shù)據(jù)集正在加劇人們對隱私和監(jiān)控的擔(dān)心。因此,一些研究人員正在重新審視這種野蠻收集他人照片的行徑。在充滿分享精神的互聯(lián)網(wǎng)中,使用他人照片本應(yīng)征求別人同意。
許多公司、研究機構(gòu)和個人都為面部識別編制了數(shù)據(jù)集,IBM只是其中之一。其中一些數(shù)據(jù)集由實際的圖像組成,還有一些類似IBM的數(shù)據(jù)集,是由圖像鏈接組成的。有時,數(shù)據(jù)集也是可以通過拍攝模特得到的。
通常情況下,這些數(shù)據(jù)集是知識共享的,但它們必須用于非商業(yè)目的,比如算法研究。但大量的類似數(shù)據(jù)集可以從網(wǎng)站免費下載。
知識共享協(xié)議于2002年首次發(fā)布,遠遠早于當前的人工智能熱潮。
盡管研究人員在網(wǎng)站上免費使用圖片,但他們也承認,許多上傳這些照片的人可能會對照片被用于訓(xùn)練人工智能的事實感到驚訝。
一些研究人員認為,人們應(yīng)該通過授權(quán),自己決定圖片是否可以用于計算機視覺或人工智能研究。
對此,知識共享協(xié)議并不能幫上大忙。只要遵循相關(guān)的條款,這個來自非營利組織的許可協(xié)議并不限制任何形式的人工智能開發(fā)。
知識共享組織首席執(zhí)行官稱:“這些協(xié)議并不是為了保護隱私或研究倫理而設(shè)計的。”
近年來,人工智能發(fā)展之快,以至于相關(guān)法規(guī)幾乎還沒有來得及制定,更不用說實施了。法律上,在收集和使用圖像進行面部識別時,公司并沒有告知義務(wù)。
目前還沒有相關(guān)的聯(lián)邦法規(guī)出臺。在各州,情況則有所不同:例如,伊利諾斯州有一項法律,要求公司在收集生物特征信息之前必須得到客戶的同意;亞馬遜和微軟總部所在地華盛頓州的州參議院最近通過了一項限制面部識別使用的法案,該法案仍需在該州眾議院獲得通過。
今年3月,參議院提出了一項法案,要求企業(yè)在收集和共享識別數(shù)據(jù)之前必須征得消費者的同意。它還要求公司進行外部測試,以確保算法在實施前是公平的。
數(shù)字版權(quán)組織電子前沿基金會技術(shù)政策主管則表示,即使沒有嚴格的法律限制私人照片用于人工智能訓(xùn)練,企業(yè)和研究團體也應(yīng)該注意遵守道德規(guī)范。
在他看來,這意味著使用照片就要得到照片中人物的明確同意。即便這很難做到,它也是企業(yè)必須面對的現(xiàn)實。