怎樣避免人類對(duì)于數(shù)據(jù)分析的干擾
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著越來(lái)越多的企業(yè)開(kāi)始采用機(jī)器學(xué)習(xí)技術(shù)以實(shí)現(xiàn)流程的自動(dòng)化,人們也逐漸開(kāi)始質(zhì)疑計(jì)算機(jī)決策中的倫理含義。我們?nèi)绾翁幚碛?jì)算機(jī)系統(tǒng)中潛在的偏見(jiàn)?相對(duì)較少被提及但同樣重要的,是人類本身的偏見(jiàn),它與分析和商業(yè)決策有很大關(guān)系。
人類的偏見(jiàn)可能會(huì)滲入到分析過(guò)程的每一步。當(dāng)商業(yè)決策者開(kāi)始擁抱機(jī)器學(xué)習(xí)進(jìn)行預(yù)測(cè)分析,以獲得下一步行動(dòng)的具體建議時(shí),盡可能客觀地利用數(shù)據(jù)和方法是很重要的。監(jiān)測(cè)這一分析過(guò)程中可能存在的人類偏見(jiàn)是一項(xiàng)偉大的職責(zé),而這一切都始于從頭開(kāi)始構(gòu)建模型的人:數(shù)據(jù)科學(xué)家。
在這篇文章中,我們主要關(guān)注以下三個(gè)方面,來(lái)管理整個(gè)流程中可能產(chǎn)生的偏見(jiàn)——從評(píng)估初始請(qǐng)求和收集信息到構(gòu)建模型和挖掘見(jiàn)解。
評(píng)估請(qǐng)求:業(yè)務(wù)決策者需要什么?
在某些情況下,偏見(jiàn)會(huì)從一開(kāi)始就進(jìn)入分析項(xiàng)目流程中,這種偏見(jiàn)直接來(lái)自于提出請(qǐng)求的業(yè)務(wù)用戶。例如,一個(gè)模型可能會(huì)被帶著偏見(jiàn)進(jìn)行請(qǐng)求和評(píng)估,因?yàn)樘岢龇治稣?qǐng)求的這個(gè)人可能潛意識(shí)里只是想驗(yàn)證自己的想法。例如,如果一個(gè)CMO認(rèn)為他們的公司應(yīng)該在PR上投資,那么讓他們的分析團(tuán)隊(duì)構(gòu)建一個(gè)展示PR需求的模型就是有問(wèn)題的。
像任何人一樣,數(shù)據(jù)科學(xué)家也會(huì)想要取悅老板——我們總是想要提供能夠滿足商業(yè)決策者所請(qǐng)求的信息。重要的是,不要根據(jù)商業(yè)決策者的需求來(lái)尋找和評(píng)估結(jié)果。為了在最后達(dá)到最公正的結(jié)果,需要避免一開(kāi)始就設(shè)定期望。這個(gè)過(guò)程應(yīng)該是一個(gè)協(xié)作的過(guò)程——您可能需要告訴業(yè)務(wù)決策者,要以最道德和最準(zhǔn)確的方式來(lái)回答他們的業(yè)務(wù)問(wèn)題。這是一個(gè)棘手的問(wèn)題,但是一旦解決了這個(gè)問(wèn)題,就可以同時(shí)避免受到業(yè)務(wù)決策者的需求的影響。
仔細(xì)選擇評(píng)估為模型提供的數(shù)據(jù)人類偏見(jiàn)可能會(huì)在選擇數(shù)據(jù)的過(guò)程中產(chǎn)生影響。思考一下您擁有哪些必需的可用數(shù)據(jù),以及您將從何處收集這些數(shù)據(jù)。在選擇數(shù)據(jù)時(shí),應(yīng)考慮這樣的問(wèn)題:與總體相關(guān)人群相比,我有多少數(shù)據(jù)?如何創(chuàng)建數(shù)據(jù)樣本?
在處理質(zhì)量問(wèn)題時(shí),應(yīng)該尋找信息的一致性,并評(píng)估它是否捕獲了足夠的變量。同時(shí)需要確保沒(méi)有遺漏任何重要內(nèi)容,如果遺漏了,一定要高度重視,并確定其可能對(duì)模型產(chǎn)生什么樣的影響。
客觀地選擇最好的分析方法每種方法和模型都有其假設(shè)——知道哪種方法和模型最適合您的問(wèn)題是非常重要的。不同的建模選擇有時(shí)會(huì)帶來(lái)非常不同的結(jié)果。請(qǐng)求的復(fù)雜性、性質(zhì)和數(shù)據(jù)的可用性是幫助你選擇適當(dāng)方法的主要因素。注意結(jié)果、測(cè)試結(jié)果穩(wěn)定性,并將模型結(jié)果與您的先驗(yàn)預(yù)期進(jìn)行比較。效果的方向合乎邏輯嗎?效果的大小合乎邏輯嗎?效果的作用合乎邏輯嗎?合適嗎?所有這些問(wèn)題都應(yīng)該解決,才能對(duì)模型更有信心。
如果要用各種算法測(cè)試數(shù)據(jù),請(qǐng)注意不要選擇特定的算法,因?yàn)樗鼤?huì)輸出所需的輸出。我們應(yīng)該注意模型給出的所有洞察。
最終,避免數(shù)據(jù)分析中帶有偏見(jiàn)的最好方法是實(shí)現(xiàn)一個(gè)包括檢查和平衡的過(guò)程,所有的假設(shè)都應(yīng)該經(jīng)過(guò)同行評(píng)審和檢查。在整個(gè)分析過(guò)程中,人員、視角和信息的多樣性越大,獲得平衡、公正結(jié)果的機(jī)會(huì)就越大。
來(lái)源:搜狐