人們需要了解人工智能和機(jī)器學(xué)習(xí)哪一些事情

時(shí)間：2020-05-01 13:12:01

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí) 函數(shù) 矩陣

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在人工智能應(yīng)用方面，企業(yè)需要獲取商業(yè)利益、構(gòu)建技術(shù)框架和模型，以獲得更好的商業(yè)成果。在人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面，目前有很多市場(chǎng)熱議和技術(shù)探討。大多數(shù)問(wèn)題有的過(guò)于松散，有的過(guò)于數(shù)

在人工智能應(yīng)用方面，企業(yè)需要獲取商業(yè)利益、構(gòu)建技術(shù)框架和模型，以獲得更好的商業(yè)成果。

在人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面，目前有很多市場(chǎng)熱議和技術(shù)探討。大多數(shù)問(wèn)題有的過(guò)于松散，有的過(guò)于數(shù)學(xué)化，有的過(guò)于籠統(tǒng)，有的過(guò)于專注于特定的應(yīng)用程序，與業(yè)務(wù)成果和指標(biāo)脫節(jié)，有的沒(méi)有方向性。

本文通過(guò)以下方式概述這些相關(guān)技術(shù)：

?定義人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，解釋與傳統(tǒng)方法的區(qū)別，描述何時(shí)使用它們，并指出它們的優(yōu)缺點(diǎn)。

?解釋它們?nèi)绾窝a(bǔ)充業(yè)務(wù)框架并實(shí)現(xiàn)業(yè)務(wù)成果和指標(biāo)。

?描述常見類型的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型培訓(xùn)、算法、架構(gòu)、性能評(píng)估和良好性能的障礙。

?提供工作中的機(jī)器學(xué)習(xí)模型和算法的示例。

?為業(yè)務(wù)成果的人工智能實(shí)施提出潛在的框架。

商業(yè)環(huán)境中的人工智能

所有的組織都致力于實(shí)現(xiàn)特定的結(jié)果，他們同時(shí)兼顧了一些業(yè)務(wù)指標(biāo)和流程來(lái)實(shí)現(xiàn)這一目標(biāo)，例如收入、成本、上市時(shí)間、流程準(zhǔn)確性和效率。但他們的資源有限（費(fèi)用、時(shí)間、人力和其他資產(chǎn)）。因此，問(wèn)題歸結(jié)為對(duì)資源配置做出正確的決策（什么樣的資源、多少資源、應(yīng)該做什么、需要什么能力等等），并且比競(jìng)爭(zhēng)對(duì)手更快、比市場(chǎng)變化更快地做出正確的決策。

做出這些決定很困難，但是很明顯，當(dāng)可以獲得數(shù)據(jù)、信息和知識(shí)時(shí)，它們變得非常容易。假設(shè)這些輸入信息可用，則需要對(duì)它們進(jìn)行匯總和挖掘。分析人員需要時(shí)間獲得行業(yè)專家的專業(yè)知識(shí)和經(jīng)驗(yàn)，以適應(yīng)不斷變化的業(yè)務(wù)規(guī)則，在可能的情況下針對(duì)個(gè)人偏見進(jìn)行校準(zhǔn)，并找出模式并產(chǎn)生見解。在理想情況下，分析人員和管理人員應(yīng)該（在時(shí)間允許的情況下）評(píng)估多種情況并進(jìn)行多次實(shí)驗(yàn)，以增強(qiáng)對(duì)其建議和決策的信心。最后，需要將決策付諸實(shí)踐。

輸入人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，其中：

?根據(jù)觀察為組織建模。

?通過(guò)同時(shí)審查許多因素和變量來(lái)產(chǎn)生見解（遠(yuǎn)遠(yuǎn)超出在合理的時(shí)間段和成本約束下所能達(dá)到的水平）。

?在提供新的觀察結(jié)果時(shí)不斷學(xué)習(xí)。

?量化結(jié)果的可能性（即預(yù)測(cè)可能發(fā)生的事情）。

?規(guī)定具體行動(dòng)，以優(yōu)化業(yè)務(wù)目標(biāo)和指標(biāo)。

?通過(guò)更快的再培訓(xùn)與傳統(tǒng)的較慢的重新編程，快速適應(yīng)新的業(yè)務(wù)規(guī)則。

使人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)成為可能的是數(shù)據(jù)量和數(shù)據(jù)類型的激增，加上計(jì)算和存儲(chǔ)硬件和工具的成本降低。Facebook、Google、Amazon和Netflix等公司已經(jīng)證明了它的有效性，所有行業(yè)的組織都在緊隨其后。結(jié)合商業(yè)智能，人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者克服了決策的障礙，從而促進(jìn)組織實(shí)現(xiàn)其商業(yè)目標(biāo)。

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)適用于指標(biāo)驅(qū)動(dòng)型組織和企業(yè)中的每個(gè)人。

麥肯錫全球研究院在其2011年5月出版的《大數(shù)據(jù)：創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》一書中指出，美國(guó)對(duì)于使用分析結(jié)果的管理人員和分析師的需求為150萬(wàn)人，超過(guò)了對(duì)分析人員（例如數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家）的需求。

換句話說(shuō)，數(shù)據(jù)價(jià)值鏈中的瓶頸不是數(shù)據(jù)或分析，而是能夠根據(jù)場(chǎng)景和智能方式利用數(shù)據(jù)/分析實(shí)施的能力。對(duì)于業(yè)務(wù)和流程專業(yè)人員來(lái)說(shuō)，這是一個(gè)將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)與已經(jīng)很好理解的業(yè)務(wù)框架和概念結(jié)合起來(lái)的機(jī)會(huì)。這是一個(gè)在這些框架和概念中定義問(wèn)題和假設(shè)的機(jī)會(huì)，然后使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)發(fā)現(xiàn)模式（洞察）和測(cè)試假設(shè)，這些假設(shè)需要太長(zhǎng)時(shí)間才能測(cè)試，否則識(shí)別和測(cè)試成本太高，或者對(duì)人們來(lái)說(shuō)太難執(zhí)行。

組織越來(lái)越多地轉(zhuǎn)向人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，而業(yè)務(wù)正變得越來(lái)越復(fù)雜。組織一次要處理的事情太多了。也就是說(shuō)，有太多數(shù)據(jù)點(diǎn)（相關(guān)的和不相關(guān)的）需要整合。這樣看，處理太多的數(shù)據(jù)可能是一個(gè)責(zé)任。

但是，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以通過(guò)系統(tǒng)地確定數(shù)據(jù)的重要性、預(yù)測(cè)結(jié)果、規(guī)定具體行動(dòng)和自動(dòng)化決策，將這堆數(shù)據(jù)變成一種資產(chǎn)。簡(jiǎn)而言之，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)使組織和企業(yè)能夠承擔(dān)驅(qū)動(dòng)業(yè)務(wù)復(fù)雜性的因素，其中包括：

?價(jià)值鏈和供應(yīng)鏈更加全球化，相互交織，并專注于微細(xì)分市場(chǎng)。

?快速變化的業(yè)務(wù)規(guī)則，以與競(jìng)爭(zhēng)對(duì)手以及客戶的需求和偏好保持同步。

?正確預(yù)測(cè)和部署稀缺資源，以優(yōu)化競(jìng)爭(zhēng)項(xiàng)目/投資和業(yè)務(wù)指標(biāo)。

?需要同時(shí)提高質(zhì)量和客戶體驗(yàn)，同時(shí)降低成本。

在許多方面，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)要優(yōu)于顯式編程和傳統(tǒng)統(tǒng)計(jì)分析：

?不需要真正了解業(yè)務(wù)規(guī)則即可達(dá)到預(yù)期的結(jié)果，只需對(duì)機(jī)器進(jìn)行樣例輸入和輸出方面的培訓(xùn)即可。

?如果業(yè)務(wù)規(guī)則發(fā)生變化，使得相同的輸入不再導(dǎo)致相同的輸出，則只需對(duì)機(jī)器進(jìn)行重新培訓(xùn)（而不是重新編程）即可，從而可以縮短響應(yīng)時(shí)間，并減輕人們學(xué)習(xí)新業(yè)務(wù)規(guī)則的需要。

?與傳統(tǒng)的統(tǒng)計(jì)分析相比，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的建立相對(duì)較快，因此可以通過(guò)嘗試學(xué)習(xí)重試方法快速迭代多個(gè)模型。

然而，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)確實(shí)有不利之處。其中，仍以統(tǒng)計(jì)數(shù)據(jù)為依據(jù)，因此產(chǎn)出存在不確定性因素。這使得將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)集成到工作流中變得棘手，因?yàn)闄C(jī)器決策中的高度模糊性很可能由一個(gè)人來(lái)處理。為了提高機(jī)器的準(zhǔn)確性，錯(cuò)誤或正確的答案應(yīng)該反饋給機(jī)器，用于額外的訓(xùn)練（學(xué)習(xí)）。

此外，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的解釋也較少;也就是說(shuō)，可能不清楚他們?nèi)绾巫龀鰶Q定。對(duì)于具有許多“層”和“神經(jīng)元”的復(fù)雜深度學(xué)習(xí)模型尤其如此。在高度管制的行業(yè)中，這種不清晰可能會(huì)特別令人擔(dān)憂。應(yīng)該注意的是，有很多研究集中在這一領(lǐng)域，因此也許將來(lái)不會(huì)成為不利條件。

考慮到這些優(yōu)點(diǎn)和缺點(diǎn)，那么什么時(shí)候使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是合適的？以下是一些想法：

?值得一提的是：取得高潛力的業(yè)務(wù)成果，但傳統(tǒng)的方法過(guò)于繁瑣、耗時(shí)，或者根本不合適。

?相關(guān)數(shù)據(jù)可用且可訪問(wèn)。

?主題專家認(rèn)為數(shù)據(jù)包含有意義的信號(hào)（也就是說(shuō)，可以從數(shù)據(jù)中獲得洞察力）。

?問(wèn)題定義與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)問(wèn)題相關(guān)，例如分類、聚類或異常檢測(cè)。

?用例的成功可以映射到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能指標(biāo)，例如精確調(diào)用和準(zhǔn)確性。

人工智能定義：從商業(yè)智能到人工智能的自然演進(jìn)

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是商業(yè)智能的自然發(fā)展。在商業(yè)智能描述和診斷過(guò)去事件的地方，人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)試圖預(yù)測(cè)未來(lái)事件的可能性，并規(guī)定如何增加這些事件實(shí)際發(fā)生的可能性。說(shuō)明這一點(diǎn)的一個(gè)簡(jiǎn)單示例是GPS可以引導(dǎo)車輛從A點(diǎn)行駛到B點(diǎn)：

?描述：車輛行駛了哪條路線，行駛了多長(zhǎng)時(shí)間？

?診斷：為什么車輛在特定的交通信號(hào)燈下花費(fèi)很長(zhǎng)時(shí)間（假設(shè)GPS平臺(tái)/工具跟蹤事故和車流情況等）？

?預(yù)測(cè)：如果車輛從A點(diǎn)到B點(diǎn)，預(yù)計(jì)到達(dá)時(shí)間是多少？

?規(guī)定：如果車輛從A點(diǎn)駛向B點(diǎn)，則該車輛應(yīng)在哪條路線行駛可以預(yù)期到達(dá)？

人工智能的預(yù)測(cè)

預(yù)測(cè)的一個(gè)例子是情感分析（某人喜歡某事的概率）。假設(shè)組織可以跟蹤和存儲(chǔ)任何用戶發(fā)布的文本內(nèi)容（例如推文、博客文章和論壇消息）。然后，組織可以建立一個(gè)模型，根據(jù)用戶發(fā)布來(lái)預(yù)測(cè)其情緒。

另一個(gè)例子是提高客戶轉(zhuǎn)化率：如果人們有機(jī)會(huì)獲得他們想要的獎(jiǎng)品，人們更有可能注冊(cè)訂閱，因此就可以預(yù)測(cè)哪些獎(jiǎng)品會(huì)帶來(lái)最高的轉(zhuǎn)化次數(shù)。

人工智能中的處方

人工智能的處方是關(guān)于在營(yíng)銷、銷售和客戶服務(wù)等各個(gè)流程中優(yōu)化業(yè)務(wù)指標(biāo)的，它是通過(guò)告訴規(guī)范分析系統(tǒng)應(yīng)優(yōu)化哪些指標(biāo)來(lái)實(shí)現(xiàn)的。這就像告訴GPS要優(yōu)化的內(nèi)容，例如最少的油耗、最快的時(shí)間、最低的行駛里程，或者經(jīng)過(guò)的快餐店。在業(yè)務(wù)環(huán)境中，組織可以將轉(zhuǎn)化率提高10%，銷售額提高20%或?qū)⑼茝V者得分（NPS）提高5點(diǎn)。

從那里，說(shuō)明性分析系統(tǒng)將規(guī)定一系列操作，這些操作可以導(dǎo)致組織想要的相應(yīng)業(yè)務(wù)成果。

假設(shè)要實(shí)現(xiàn)10%的轉(zhuǎn)化率提升。系統(tǒng)可能會(huì)規(guī)定：

?將直接郵件營(yíng)銷的頻率降低15%。

?同時(shí)將Twitter和Facebook的參與度分別提高10%和15%。

?當(dāng)企業(yè)的社交媒體總參與度達(dá)到12%時(shí)，開始將公眾引導(dǎo)到組織的客戶社區(qū)門戶以實(shí)現(xiàn)客戶的參與。

這些說(shuō)明性操作就像GPS系統(tǒng)建議組織在旅途中進(jìn)行的轉(zhuǎn)彎以優(yōu)化其設(shè)定的目標(biāo)一樣。

商業(yè)智能、統(tǒng)計(jì)數(shù)據(jù)和人工智能之間的關(guān)系

這是定義商業(yè)智能、統(tǒng)計(jì)信息和人工智能之間差異的一種方法：

?傳統(tǒng)上，商業(yè)智能是面向查詢的，并且依靠分析師來(lái)確定模式（例如最賺錢的客戶，為什么他們最賺錢，它們與眾不同的屬性（例如年齡或工作類型）。

?統(tǒng)計(jì)數(shù)據(jù)還依賴于分析人員了解數(shù)據(jù)的屬性（或結(jié)構(gòu)）以在數(shù)據(jù)中找到有關(guān)總體的信息，但它在推斷一般化方面增加了數(shù)學(xué)上的嚴(yán)謹(jǐn)性（例如，實(shí)際生活中的這些客戶群體與樣本數(shù)據(jù)中的客戶群體之間是否存在差異）。

?人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)依靠算法（而非分析師）來(lái)自主找到數(shù)據(jù)中的模式并啟用預(yù)測(cè)和處方。

請(qǐng)注意，商業(yè)智能和人工智能，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以做的更多。

雖然一方面使用統(tǒng)計(jì)建模，另一方面使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)建立業(yè)務(wù)狀況模型，但兩者之間存在一些關(guān)鍵差異，尤其是：

?統(tǒng)計(jì)建模需要在輸入和輸出之間建立一個(gè)數(shù)學(xué)方程式。相比之下，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)并不會(huì)嘗試使用該數(shù)學(xué)方程;與其相反，它們只是嘗試在給定輸入的情況下重新創(chuàng)建輸出。

?統(tǒng)計(jì)建模需要了解變量之間的關(guān)系，并對(duì)數(shù)據(jù)總體的統(tǒng)計(jì)屬性進(jìn)行假設(shè)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)則沒(méi)有。

通常，由于統(tǒng)計(jì)建模需要數(shù)學(xué)方程式，并且需要了解數(shù)據(jù)之間的關(guān)系，因此統(tǒng)計(jì)模型在建立統(tǒng)計(jì)模型以研究和處理數(shù)據(jù)時(shí)需要花費(fèi)相對(duì)較長(zhǎng)的時(shí)間。但是，如果成功完成（即找到方程式并且很好地理解數(shù)據(jù)之間的統(tǒng)計(jì)關(guān)系），則該模型可能會(huì)致命。

另一方面，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的構(gòu)建速度非常快，但啟動(dòng)時(shí)可能無(wú)法獲得高性能。但是由于它們很容易在早期階段構(gòu)建，因此可以同時(shí)嘗試許多算法，并不斷嘗試最有希望的算法，直到模型性能變得非常好為止。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型還具有額外的優(yōu)勢(shì)，即可以“獨(dú)立”不斷地從新數(shù)據(jù)中學(xué)習(xí)，從而提高其性能。

如果數(shù)據(jù)的性質(zhì)發(fā)生變化，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型只需對(duì)新數(shù)據(jù)進(jìn)行再培訓(xùn);而統(tǒng)計(jì)模型通常需要全部或部分重建。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在解決高度非線性問(wèn)題方面也很出色（人們很難做到這一點(diǎn)，因?yàn)檫@些方程太長(zhǎng)了）。隨著微細(xì)分成為規(guī)范（例如細(xì)分的客戶群、大規(guī)模定制、個(gè)性化客戶體驗(yàn)、個(gè)人和精準(zhǔn)醫(yī)療），并且流程和根本原因分析變得越來(lái)越多方面和相互依賴，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的這一屬性真的很有用。

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有何不同

到目前為止，把人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)結(jié)合在一起。但它們并不完全相同。

一般來(lái)說(shuō)：

人工智能是機(jī)器執(zhí)行人類智能特征任務(wù)的地方。它包括計(jì)劃、理解語(yǔ)言、識(shí)別物體和聲音、學(xué)習(xí)和解決問(wèn)題。這可以是人工通用智能（AGI）或人工狹義智能（ANI）的形式。

?人工通用智能（AGI）具有人類智慧的所有特征，包括人們的所有感官（甚至更多）和推理能力，因此可以像人們一樣思考。有些人將其描述為“認(rèn)知”，例如C3PO等。

?人工狹義智能（ANI）具有人類智能的某些方面，但不是全部。它用于執(zhí)行特定任務(wù)。例子包括Pinterest等服務(wù)中的圖像分類和Facebook上的人臉識(shí)別。人工狹義智能（ANI）是大多數(shù)業(yè)務(wù)應(yīng)用程序當(dāng)前關(guān)注的焦點(diǎn)。

機(jī)器學(xué)習(xí)是指機(jī)器使用算法來(lái)學(xué)習(xí)和執(zhí)行任務(wù)而無(wú)需進(jìn)行顯式編程（也就是說(shuō)，不必向它們提供特定的業(yè)務(wù)規(guī)則來(lái)從數(shù)據(jù)中學(xué)習(xí);換句話說(shuō)，它們不需要諸如“如果看到X，就做Y”）。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集，通常使用人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的好處是，從理論上說(shuō)，無(wú)需告知哪些數(shù)據(jù)元素（或機(jī)器學(xué)習(xí)中的“特征”很重要），但是大多數(shù)時(shí)候，它需要大量數(shù)據(jù)。

以識(shí)別手寫數(shù)字為例，可以更好地理解顯式編程、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之間的差異。對(duì)于人們來(lái)說(shuō)，識(shí)別手寫數(shù)字并不難。多年來(lái)，人們已經(jīng)從父母、老師、兄弟姐妹和同學(xué)學(xué)到很多知識(shí)和技能。

現(xiàn)在假設(shè)讓一臺(tái)機(jī)器通過(guò)顯式編程執(zhí)行相同的操作。在顯式編程中，必須告訴機(jī)器要查找的內(nèi)容。例如，圓形對(duì)象為零，豎線為1，依此類推。但是，如果對(duì)象不是完美的圓形，或者末端沒(méi)有連接而并不是一個(gè)完整的圓形，會(huì)發(fā)生什么？當(dāng)直線不是豎直線而是向側(cè)面傾斜時(shí)，或者該行的頂部有一個(gè)鉤子（例如“ 1”）時(shí)，會(huì)發(fā)生什么？是數(shù)字7嗎？手寫字母的多種變體使編寫一個(gè)明確的程序變得困難。組織將不斷添加新的“業(yè)務(wù)規(guī)則”以說(shuō)明差異。在機(jī)器學(xué)習(xí)方法中，將顯示機(jī)器示例1s，2s等，并告訴它要尋找什么“特性”（重要特征）。特征工程很重要，重要特征的示例可以是圓的數(shù)量、直線的數(shù)量、直線的方向、直線相交的數(shù)量以及直線相交的位置。不重要特征的示例可能是顏色、長(zhǎng)度、寬度和深度。假設(shè)組織為機(jī)器提供了正確的功能，并提供了示例和答案，則機(jī)器最終將自行了解這些功能對(duì)于不同數(shù)字的重要性，然后希望能夠正確區(qū)分（或分類）數(shù)字。

需要注意，使用機(jī)器學(xué)習(xí)時(shí)，必須告訴機(jī)器重要的功能（即要查找的內(nèi)容），因此機(jī)器與確定適當(dāng)功能的人員一樣好。

深度學(xué)習(xí)的承諾是，無(wú)需工作人員告訴機(jī)器要使用哪些功能（即哪些功能最重要），它就會(huì)自動(dòng)發(fā)現(xiàn)這一點(diǎn)。需要做的就是為它提供所有功能，它會(huì)從中自動(dòng)選擇重要的功能。盡管這是一個(gè)明顯的優(yōu)勢(shì)，但它是以高數(shù)據(jù)量要求和長(zhǎng)時(shí)間培訓(xùn)的形式付出的代價(jià)，而這需要大量的計(jì)算處理能力。

人工智能模型概念綜述

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型背后的思想是，它們從給定的數(shù)據(jù)（他們以前看到的東西）中學(xué)習(xí)，然后可以概括為對(duì)新數(shù)據(jù)（他們以前沒(méi)有看到的東西）做出正確的決策。

但是什么構(gòu)成模型？模型的一種定義是由三個(gè)部分組成：

?數(shù)據(jù)：歷史數(shù)據(jù)用于訓(xùn)練模型。例如，在學(xué)習(xí)彈鋼琴時(shí)，輸入的數(shù)據(jù)是不同的音符、不同類型的音樂(lè)、不同的作曲家風(fēng)格等。

?算法：模型用于學(xué)習(xí)過(guò)程的一般規(guī)則。在鋼琴示例中，組織的內(nèi)部算法可能會(huì)告訴尋找音符，如何在琴鍵上移動(dòng)手指、如何以及何時(shí)按下踏板等。

?超參數(shù)：這些是數(shù)據(jù)科學(xué)家為改善模型性能而進(jìn)行調(diào)整的“旋鈕”，它們并不是從數(shù)據(jù)中學(xué)習(xí)到的。再次以鋼琴為例，超參數(shù)包括人們練習(xí)音樂(lè)作品的頻率、練習(xí)的位置、一天中的練習(xí)時(shí)間，用于練習(xí)的鋼琴等。這種想法是，調(diào)整這些“旋鈕”可以提高其學(xué)習(xí)如何演奏音樂(lè)的能力。

將所有這些放在一起，便會(huì)構(gòu)建一個(gè)鋼琴演奏模型。從理論上講，根據(jù)其訓(xùn)練水平，可以創(chuàng)作以前從未彈奏過(guò)的新音樂(lè)作品，并且可以演奏它們。

機(jī)器學(xué)習(xí)的類型

機(jī)器就像人一樣可以通過(guò)不同的方式學(xué)習(xí)。在此將再次使用鋼琴訓(xùn)練的例子進(jìn)行解釋：

?有人監(jiān)督：鋼琴教師向彈奏者展示或告訴其正確的演奏方法，以及糾正錯(cuò)誤的演奏方法。在理想的情況下，將提供相同數(shù)量的示例，說(shuō)明如何正確和錯(cuò)誤地演奏方法。實(shí)質(zhì)上，訓(xùn)練數(shù)據(jù)由要從一組預(yù)測(cè)變量（獨(dú)立變量）中預(yù)測(cè)的目標(biāo)/結(jié)果變量（或因變量）組成。使用這些變量集，將生成一個(gè)將輸入映射到所需輸出的函數(shù)。訓(xùn)練過(guò)程一直持續(xù)到模型在訓(xùn)練數(shù)據(jù)上達(dá)到期望的性能水平為止。監(jiān)督培訓(xùn)的業(yè)務(wù)示例顯示了已獲批準(zhǔn)或被拒絕（目標(biāo)結(jié)果和決策）的貸款申請(qǐng)的系統(tǒng)示例（由信用歷史、工作歷史、資產(chǎn)所有權(quán)、收入和教育等預(yù)測(cè)變量組成）。

?無(wú)人監(jiān)督：如果演奏者自己一個(gè)人在演奏，也就是說(shuō)沒(méi)有人教他如何彈鋼琴，因此他可以根據(jù)自己的想法來(lái)決定對(duì)與錯(cuò)，以優(yōu)化對(duì)其重要的參數(shù)，例如完成樂(lè)曲的速度，高音符與柔和音符的比率，或觸按琴鍵的數(shù)量。本質(zhì)上，數(shù)據(jù)點(diǎn)沒(méi)有與之關(guān)聯(lián)的標(biāo)簽來(lái)告知是對(duì)還是錯(cuò)。與其相反，目標(biāo)是以某種方式組織數(shù)據(jù)或描述其結(jié)構(gòu)。這可能意味著將其分組，或者尋找查看復(fù)雜數(shù)據(jù)的不同方法，從而使其看起來(lái)更簡(jiǎn)單或更有組織。通常，無(wú)監(jiān)督學(xué)習(xí)在訓(xùn)練模型方面不如無(wú)監(jiān)督學(xué)習(xí)有效，但是當(dāng)沒(méi)有標(biāo)簽存在時(shí)（換句話說(shuō)，“正確”的答案是未知的），這可能是必要的。一個(gè)常見的商業(yè)例子是市場(chǎng)細(xì)分：通常不清楚什么是“正確”的市場(chǎng)細(xì)分，但每個(gè)營(yíng)銷人員都在尋找自然親緣關(guān)系的細(xì)分，以便他們能夠以正確的信息、提議和產(chǎn)品接近這些細(xì)分。

?半監(jiān)督：受監(jiān)督和無(wú)監(jiān)督的組合。在沒(méi)有足夠監(jiān)督數(shù)據(jù)的情況下使用此方法。在鋼琴示例中，就會(huì)得到一些指導(dǎo)，但不會(huì)得到很多指導(dǎo)（可能是因?yàn)檎n程昂貴或老師人數(shù)不足）。

?強(qiáng)化：系統(tǒng)不會(huì)告知演奏者正確和錯(cuò)誤的演奏方式，也不知道要優(yōu)化的參數(shù)是什么，但是會(huì)告訴何時(shí)做對(duì)或錯(cuò)。在進(jìn)行鋼琴訓(xùn)練的情況下，當(dāng)彈錯(cuò)音符或以不正確的節(jié)奏演奏時(shí)，鋼琴教師可能會(huì)糾正，并且當(dāng)演奏者彈奏得很好時(shí)，就會(huì)給予鼓勵(lì)。強(qiáng)化學(xué)習(xí)現(xiàn)在非常流行，因?yàn)樵谀承┣闆r下，每種情況下沒(méi)有足夠的監(jiān)督數(shù)據(jù)，但是已知“正確”的答案。例如，在國(guó)際象棋游戲中，要記錄到文檔（標(biāo)簽）的移動(dòng)過(guò)多。但是強(qiáng)化學(xué)習(xí)仍然可以告訴機(jī)器何時(shí)做出對(duì)與錯(cuò)的決定，進(jìn)而贏得勝利（比如在國(guó)際象棋中捕捉棋子和強(qiáng)化位置）。

?轉(zhuǎn)移學(xué)習(xí)：演奏者已經(jīng)掌握了一些可轉(zhuǎn)移的技能（例如閱讀筆記的能力，甚至掌握了手指的敏捷性），因此可以利用自己的彈奏鋼琴知識(shí)來(lái)學(xué)習(xí)另一種樂(lè)器，以此來(lái)學(xué)習(xí)如何吹小號(hào)。之所以使用轉(zhuǎn)移學(xué)習(xí)，是因?yàn)樗鼫p少了學(xué)習(xí)時(shí)間，對(duì)于使用深度學(xué)習(xí)架構(gòu)的模型而言，這可能很重要（數(shù)小時(shí)甚至數(shù)天）。

通用機(jī)器學(xué)習(xí)算法

常見的算法類型包括：

?回歸只是通過(guò)數(shù)據(jù)點(diǎn)繪制曲線或直線。

?分類是確定某物屬于哪個(gè)組。二進(jìn)制分類（兩組）正在確定某物是否屬于一類，例如圖片中的動(dòng)物是否是狗。以動(dòng)物為例，多種分類（兩個(gè)以上類別）是動(dòng)物是狗、貓、鳥等。

?聚類類似于分類，但是并不會(huì)提前知道分類。再次以識(shí)別動(dòng)物圖片為示例，可以確定存在三種類型的動(dòng)物，但是不知道這些動(dòng)物是什么，因此只需將它們分為幾類即可。一般而言，當(dāng)沒(méi)有足夠的受監(jiān)管數(shù)據(jù)時(shí)，或者當(dāng)想在數(shù)據(jù)中找到自然分組而不受限于特定組（例如狗、貓或鳥）時(shí)，可以使用聚類。

?時(shí)間序列假定數(shù)據(jù)順序很重要（隨著時(shí)間的推移獲取的數(shù)據(jù)點(diǎn)具有應(yīng)考慮的內(nèi)部結(jié)構(gòu)）。例如，可以將銷售數(shù)據(jù)視為時(shí)間序列，因?yàn)榭赡芟ＭS時(shí)間變化收入趨勢(shì)，以檢測(cè)季節(jié)性并將其與促銷活動(dòng)相關(guān)聯(lián)。

深度學(xué)習(xí)模型

深度學(xué)習(xí)基于人工神經(jīng)網(wǎng)絡(luò)（ANN）的概念。這樣可以就像人類的大腦一樣工作，在這種情況下，根據(jù)某種反饋，突觸變得更強(qiáng)或更弱，而神經(jīng)元?jiǎng)t根據(jù)特定條件激發(fā)。通過(guò)深度學(xué)習(xí)模型解決了難題，其中包括自動(dòng)駕駛汽車、圖像檢測(cè)、視頻分析和語(yǔ)言處理。

為了避免認(rèn)為深度學(xué)習(xí)模型是唯一應(yīng)該使用的東西，這里有一些注意事項(xiàng)：

?首先，它們需要大量數(shù)據(jù)，通常比機(jī)器學(xué)習(xí)模型要多得多。如果沒(méi)有大量數(shù)據(jù)，深度學(xué)習(xí)通常會(huì)表現(xiàn)不佳。

?其次，由于深度學(xué)習(xí)模型需要大量數(shù)據(jù)，因此訓(xùn)練過(guò)程需要很長(zhǎng)時(shí)間，并且需要大量的計(jì)算處理能力。這一點(diǎn)正被越來(lái)越強(qiáng)大和更快的CPU和存儲(chǔ)器以及更新的GPU和FPGAs（現(xiàn)場(chǎng)可編程邏輯陣列）所解決。

?第三，深度學(xué)習(xí)模型通常比機(jī)器學(xué)習(xí)模型更難解釋。可解釋性是深度學(xué)習(xí)研究的主要領(lǐng)域，因此也許會(huì)有所改善。

如何衡量機(jī)器學(xué)習(xí)模型的性能

模型就像人類一樣，可以對(duì)其性能進(jìn)行評(píng)估。這里有幾種方法可以衡量相對(duì)簡(jiǎn)單的回歸模型的性能。

所有這些都可以被認(rèn)為是一種成本函數(shù)，它可以幫助模型知道它是否離“正確”答案越來(lái)越近，或者距該答案“足夠近”。成本函數(shù)告訴模型需要多長(zhǎng)時(shí)間才能獲取之前從未見過(guò)的新數(shù)據(jù)，并以足夠高的概率輸出正確的預(yù)測(cè)。訓(xùn)練模型時(shí)，目標(biāo)是最小化成本函數(shù)。

分類模型中的精度與召回率

一旦成本函數(shù)完成了根據(jù)訓(xùn)練數(shù)據(jù)（正在顯示的數(shù)據(jù)）幫助模型朝著“正確答案”方向發(fā)展的工作，就需要評(píng)估模型在尚未處理的數(shù)據(jù)上的表現(xiàn)如何看過(guò)。在分類模型的場(chǎng)景中進(jìn)行解釋（分類模型可以確定某物是否屬于一組或另一組，例如圖片是狗、貓、老鼠等）。

要評(píng)估分類模型的性能，請(qǐng)使用方程式以提高準(zhǔn)確性。但是，通常認(rèn)為，當(dāng)訓(xùn)練數(shù)據(jù)顯示等級(jí)不平衡時(shí)，準(zhǔn)確性指標(biāo)可能會(huì)誤導(dǎo)，因此可以使用稱為精度和召回率的指標(biāo)。這些術(shù)語(yǔ)的含義如下：

?等級(jí)不平衡：數(shù)據(jù)在一個(gè)方向相對(duì)于其他方向偏斜。考慮預(yù)測(cè)信用卡交易是否為欺詐的示例。絕大多數(shù)交易不是欺詐性的，數(shù)據(jù)集將朝這個(gè)方向傾斜。因此，如果預(yù)測(cè)給定的交易不是欺詐，那么即使對(duì)交易本身一無(wú)所知，也可能是對(duì)的。在此示例中應(yīng)用準(zhǔn)確性指標(biāo)會(huì)使人們誤以為在預(yù)測(cè)非欺詐性交易方面做得很好。

?精確性是相關(guān)性的衡量標(biāo)準(zhǔn)。假設(shè)使用搜索引擎來(lái)了解人們喜歡網(wǎng)球運(yùn)動(dòng)的程度。精確測(cè)量返回的項(xiàng)目中有多少與此有關(guān)，而鏈接則表示人們喜歡網(wǎng)球的程度，人們喜歡網(wǎng)球活動(dòng)的方式等等。

?召回是衡量完整性的標(biāo)準(zhǔn)。以喜歡網(wǎng)球運(yùn)動(dòng)為例，召回率可以衡量搜索引擎捕獲所有可用參考的程度。缺少零引用是令人驚訝的，缺少一兩個(gè)參考值還可以，缺少數(shù)千個(gè)參考值將是可怕的。

不幸的是，在現(xiàn)實(shí)世界中，精確性和召回率是相互抵消的;也就是說(shuō)，當(dāng)一個(gè)指標(biāo)提高時(shí)，另一個(gè)指標(biāo)就會(huì)降低。所以，必須確定哪個(gè)指標(biāo)更重要。

以一個(gè)約會(huì)應(yīng)用程序?yàn)槔?，該?yīng)用程序?qū)⒛橙伺c異性匹配。如果相貌端正、富有并且個(gè)性十足，那么可能會(huì)傾向于更高的精度，因?yàn)橹罆?huì)有很多潛在的匹配，但只想要真正合適的匹配，并且篩選潛在對(duì)手的可能性很高。為了評(píng)估模型在精度和召回率之間的平衡程度，使用了F1評(píng)分。

這些指標(biāo)可以繪制在圖表上;一個(gè)稱為ROC曲線（接收者工作特性曲線），另一個(gè)稱為PR曲線（精度召回曲線）。一條完美的曲線（除非作弊，否則永遠(yuǎn)得不到它）是Y軸到1，然后越過(guò)頂點(diǎn)的曲線。在ROC曲線的情況下，對(duì)角線上的一條直線是不好的，這意味著模型以50%的比率平均預(yù)測(cè)正值和負(fù)值（不比隨機(jī)猜測(cè)好）。這些指標(biāo)經(jīng)常轉(zhuǎn)換為曲線下的面積（AUC），因此將看到AUC ROC和AUC PR等術(shù)語(yǔ)。

為什么建立機(jī)器學(xué)習(xí)模型會(huì)很困難

既然了解了什么是模型以及如何判斷模型的性能，那么探討一下為什么構(gòu)建一個(gè)性能良好的模型會(huì)很困難。這有幾個(gè)原因，其中包括：?jiǎn)栴}表述、數(shù)據(jù)問(wèn)題、選擇合適的模型算法和結(jié)構(gòu)、選擇合適的特征、調(diào)整超參數(shù)、訓(xùn)練模型、代價(jià)（誤差）函數(shù)、欠擬合（偏差）和過(guò)擬合（方差）。

要知道，數(shù)據(jù)科學(xué)和其他任何科學(xué)一樣，既是一門藝術(shù)，也是一門科學(xué)。當(dāng)然，做事情總是有一些簡(jiǎn)單的方法，但是這些方法可能會(huì)很費(fèi)時(shí)，可能會(huì)減少洞察力，而且很可能適得其反。當(dāng)前的數(shù)據(jù)科學(xué)方法是匯集行業(yè)專家（如業(yè)務(wù)線、運(yùn)營(yíng)、轉(zhuǎn)型和改進(jìn)專家）和數(shù)據(jù)科學(xué)家的知識(shí)，以創(chuàng)建滿足業(yè)務(wù)需求的模型。

過(guò)擬合與欠擬合

過(guò)擬合與欠擬合是最受歡迎的問(wèn)題結(jié)果，因此對(duì)其進(jìn)行深入研究。它們涉及偏差和方差。

過(guò)擬合（高方差）意味著該模型對(duì)數(shù)據(jù)的變化反應(yīng)過(guò)多，因此它并未真正了解其真正含義，而是“記憶”了數(shù)據(jù)。就像學(xué)習(xí)一本數(shù)學(xué)書一樣，當(dāng)接受測(cè)試時(shí)，只知道書中給出的三個(gè)例子的答案。當(dāng)老師問(wèn)你這些數(shù)學(xué)問(wèn)題時(shí)（例如2+1=3，7+2=9，和4+2=6），會(huì)發(fā)現(xiàn)它們是正確的。但是當(dāng)她問(wèn)一些不同的東西（例如7×9 =？）時(shí)，就可能不知道答案。這是因?yàn)榧词沽私饫拥拇鸢福](méi)有掌握算法。

欠擬合（高偏差）是相反的問(wèn)題，因?yàn)榫芙^學(xué)習(xí)新知識(shí)。也許你學(xué)會(huì)簡(jiǎn)單的算法。但是現(xiàn)在情況已經(jīng)改變了，要求實(shí)施更難的算法。如果表現(xiàn)出很高的偏見，則將繼續(xù)學(xué)習(xí)簡(jiǎn)單的算法而不學(xué)習(xí)更難的算法的話，那么就會(huì)得到錯(cuò)誤的答案。

這兩者都是問(wèn)題，數(shù)據(jù)科學(xué)具有幫助緩解這些問(wèn)題的機(jī)制。

機(jī)器學(xué)習(xí)模型示例

可以了解一下使用兩種算法的機(jī)器學(xué)習(xí)示例：急切算法和懶惰算法。

急切算法不使用顯式訓(xùn)練，而懶惰算法是顯式訓(xùn)練。由于急切算法未經(jīng)過(guò)明確訓(xùn)練，因此它們的訓(xùn)練階段很快（實(shí)際上不存在），但是其執(zhí)行（或推斷階段）比經(jīng)過(guò)訓(xùn)練的懶惰算法慢。急切算法也使用更多的內(nèi)存，因?yàn)樾枰鎯?chǔ)整個(gè)數(shù)據(jù)集，而一旦訓(xùn)練完成，用于訓(xùn)練懶惰算法的數(shù)據(jù)可以被丟棄，而占用的總內(nèi)存更少。

示例：使用TF-IDF進(jìn)行文檔搜索

在應(yīng)用于文本分析的急切算法的第一個(gè)示例中，使用的是稱為TF-IDF的算法。將在短期內(nèi)解釋TF和IDF的含義，但首先明確一下這個(gè)示例的目標(biāo)。有五個(gè)簡(jiǎn)單的簡(jiǎn)短文檔（文檔1至5）。這些文檔還有一個(gè)關(guān)鍵字詞典;該詞典用于關(guān)鍵字搜索。還有一個(gè)用戶查詢，目的是檢索最適合用戶查詢的文檔。在這個(gè)例子中，要按優(yōu)先級(jí)相關(guān)性順序返回五個(gè)文檔。

首先解釋一下TF和IDF的縮寫。TF代表術(shù)語(yǔ)頻率或術(shù)語(yǔ)出現(xiàn)的頻率（即該術(shù)語(yǔ)在文檔中的密度）。人們關(guān)心的原因是，假設(shè)當(dāng)“重要”術(shù)語(yǔ)出現(xiàn)得更頻繁時(shí)，它所在的文檔更相關(guān);TF幫助將用戶查詢中的術(shù)語(yǔ)映射到最相關(guān)的文檔。

IDF代表反文檔頻率。這幾乎是相反的想法，在所有文檔中頻繁出現(xiàn)的術(shù)語(yǔ)的重要性較低，因此希望減少這些術(shù)語(yǔ)的重要性。顯而易見的詞是“a”、“an”和“the”，但對(duì)于特定的主題或領(lǐng)域，還有許多其他詞?？梢园堰@些常見的術(shù)語(yǔ)看作是干擾搜索過(guò)程的噪音。

為文檔和查詢計(jì)算出TF和IDF值后，只需計(jì)算用戶查詢與每個(gè)文檔之間的相似度即可。相似性評(píng)分越高，文檔越相關(guān)。然后，按照相關(guān)性順序?qū)⑦@些文檔呈現(xiàn)給用戶。

現(xiàn)在已經(jīng)了解了如何完成操作，只需要進(jìn)行計(jì)算即可。

可以看看計(jì)算結(jié)果。將會(huì)看到幾個(gè)矩陣。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型使用矩陣數(shù)學(xué)進(jìn)行大量計(jì)算。與數(shù)據(jù)科學(xué)家合作時(shí)，需要意識(shí)到這一點(diǎn)，需要幫助他們以對(duì)業(yè)務(wù)問(wèn)題有意義的方式將數(shù)據(jù)轉(zhuǎn)換為這些類型的格式。這并不難，但這是數(shù)據(jù)科學(xué)預(yù)處理階段的一部分。

在第一個(gè)TF矩陣中，計(jì)算每個(gè)文檔的每個(gè)關(guān)鍵字（在字典中指定）的規(guī)范化（“相對(duì)”）頻率。分子表示該文檔中的單詞計(jì)數(shù)頻率，分母表示單詞在任何給定文檔中出現(xiàn)的最大次數(shù);換句話說(shuō)，它是所有分子之間的最大值。

在第二個(gè)矩陣中，為字典中的每個(gè)術(shù)語(yǔ)在最后一行添加一個(gè)IDF向量。只需應(yīng)用已經(jīng)給出的方程：IDF（t）=log（N/N（t）），其中

?N =推薦文件數(shù)

?n（t）=出現(xiàn)關(guān)鍵字t的文檔數(shù)

下一步是通過(guò)將文檔的每一行乘以IDF的最后一行來(lái)為文檔創(chuàng)建TF-IDF矩陣?，F(xiàn)在，已經(jīng)完成了文檔矩陣。重復(fù)相同的過(guò)程以創(chuàng)建用戶查詢矩陣。

最后，將兩個(gè)矩陣組合起來(lái)，并計(jì)算每個(gè)文檔和用戶查詢之間的相似度。在這種情況下，可以使用方程式來(lái)計(jì)算相似度，稱為余弦相似度（也可以使用其他相似度計(jì)算）。注意，用戶查詢和自身之間的相似度值是1，因?yàn)樗鼞?yīng)該是1，因?yàn)樗谂c自身進(jìn)行比較。

從這里，可以將相似度值（在矩陣的最后一列）從高到低排序，從而向用戶呈現(xiàn)從高到低的相關(guān)文檔。現(xiàn)在完成了。但要注意的是，該模型沒(méi)有“訓(xùn)練”，只應(yīng)用了一些方程式。

示例：使用基于內(nèi)容的協(xié)作方法推薦寵物

再了解一下推薦引擎中使用的急切機(jī)器學(xué)習(xí)算法的另一個(gè)例子，類似于人們?cè)谠S多網(wǎng)站上看到的內(nèi)容。在這種情況下，假設(shè)你有四名寵物愛好者的數(shù)據(jù)，并且可以了解他們喜歡的寵物的類型以及他們對(duì)特定寵物的喜歡程度。假設(shè)有第五個(gè)寵物愛好者（Amy），你對(duì)他的偏愛知之甚少。

你的目標(biāo)有兩個(gè)：預(yù)測(cè)Amy對(duì)特定寵物的評(píng)價(jià)，并預(yù)測(cè)Amy喜歡寵物的偏好。應(yīng)該看到，這與相似性問(wèn)題非常相似，這是在你認(rèn)識(shí)的人與不太了解的的人之間使用屬性相似性來(lái)實(shí)現(xiàn)的。

有兩種方法可以確定推薦系統(tǒng)中的相似性：協(xié)作和基于內(nèi)容，協(xié)作可以進(jìn)一步定義為基于用戶或基于項(xiàng)目。

在協(xié)作方法中，需要對(duì)社區(qū)中的用戶進(jìn)行評(píng)級(jí)。通過(guò)基于用戶的方法來(lái)應(yīng)用此功能，可以根據(jù)社區(qū)中相似用戶的喜歡來(lái)預(yù)測(cè)用戶喜歡什么。相比之下，使用基于項(xiàng)目的方法，可以根據(jù)社區(qū)喜歡的項(xiàng)目之間的相似性來(lái)預(yù)測(cè)用戶喜歡什么。

基于內(nèi)容的方法不使用社區(qū)中用戶的評(píng)分。取而代之的是，它基于商品本身的特征，而分配給這些特征的值（或標(biāo)簽）則由領(lǐng)域?qū)＜姨峁?/p>

每種方法都有其優(yōu)點(diǎn)和缺點(diǎn)。

考慮這個(gè)例子：在協(xié)作方法中，使用其他用戶的寵物等級(jí)來(lái)預(yù)測(cè)個(gè)人對(duì)寵物的未知等級(jí)。

首先，嘗試基于用戶的方法。因?yàn)檎诒容^可能因人為偏見而歪曲的總體個(gè)人評(píng)級(jí)（他們的基準(zhǔn)可能會(huì)有所不同），所以使用了一個(gè)稱為Pearson相似性的相似性函數(shù)，該函數(shù)試圖通過(guò)規(guī)范化評(píng)分（即通過(guò)從每個(gè)用戶評(píng)分中減去評(píng)分的平均值）。在該示例中，就會(huì)發(fā)現(xiàn)Alice的評(píng)分與Bill的評(píng)分最為相似，因此可以假設(shè)Amy的缺失評(píng)分與Bill的評(píng)分相同。

現(xiàn)在嘗試基于項(xiàng)目的方法。通過(guò)這種方法，不必關(guān)注個(gè)人的評(píng)分，而是關(guān)注項(xiàng)目的評(píng)分。而且，由于項(xiàng)目的評(píng)分是由幾個(gè)人提供的評(píng)分的綜合，因此不必?fù)?dān)心偏差，因此可以使用余弦相似度函數(shù)。在這里，你會(huì)看到貓和刺猬最相似，因此可以推斷出Amy對(duì)貓的評(píng)分與她對(duì)刺猬的評(píng)分相同。

最后，嘗試基于內(nèi)容的方法。這種方法不需要對(duì)社區(qū)成員進(jìn)行評(píng)分。取而代之的是，專家標(biāo)記了數(shù)據(jù)，在這種情況下，數(shù)據(jù)是每種寵物類型的屬性（可愛、整潔、忠誠(chéng)）。如果知道某人對(duì)每種屬性的偏好，則可以使用余弦相似度函數(shù)來(lái)預(yù)測(cè)該人最可能喜歡的寵物。在此示例中，Amy最有可能按照偏好降序依次選擇刺猬、兔子、狗、豬、貓。

以下學(xué)習(xí)一些數(shù)學(xué)。舉例來(lái)說(shuō)，要確定Amy對(duì)刺猬的評(píng)分，會(huì)發(fā)現(xiàn)刺猬的寵物屬性與Amy對(duì)寵物屬性的重要性等級(jí)之間存在相似之處：

?刺猬的向量是（4，3，1，1）

?Amy的向量是（3，3，2，1）

?需要找到這兩個(gè)向量之間的相似性

?余弦相似度= ［4（3）+（3）（3）+（1）（2）+（1）（1）］/［SQRT（4^2 + 3^2 + 1^2 + 1^2）* SQRT（3^2 + 3^2 + 2^2 + 1^2］ = 0.96

對(duì)于協(xié)作方法，可以使用Pearson方程，因?yàn)樗梢詷?biāo)準(zhǔn)化各個(gè)用戶的評(píng)分（他們的評(píng)分可能不一致）。如果具有客觀等級(jí)（（比如不是基于不同等級(jí)的人的評(píng)分），可以使用余弦相似度。以下是方程式中的變量：

?u：用戶

?i：需要評(píng)級(jí)的項(xiàng)目

?N：#個(gè)最近的鄰居

?j：鄰居

?rj，I：j對(duì)i的評(píng)分

?rj bar：j的平均值

?ru bar：用戶評(píng)分的平均值

?alpha：等級(jí)的縮放比例; 1表示按原樣使用（沒(méi)有正確的alpha值;這是那些超參數(shù)之一），有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家可以根據(jù)問(wèn)題的目標(biāo)和背景進(jìn)行調(diào)整，以得出更好的結(jié)果。

示例：使用支持向量機(jī)（SVM）的懶惰算法

最后，這里是一個(gè)稱為支持向量機(jī)（SVM）的懶惰機(jī)器學(xué)習(xí)算法的例子。在這種方法中，需要確定一個(gè)項(xiàng)目屬于哪個(gè)組，例如一個(gè)新客戶最終是一個(gè)利潤(rùn)高還是低的客戶。要使用支持向量機(jī)完成此操作，需要計(jì)算兩個(gè)參數(shù)：

?每個(gè)屬性的權(quán)重（重要性）（屬性的示例可能是客戶的收入、家庭成員的數(shù)量、職業(yè)和教育成就）

?支持向量，它是最接近將各組分開的曲線（稱為超平面）的數(shù)據(jù)集。

然后使用這兩個(gè)參數(shù)并將它們插入方程式。

計(jì)算這些參數(shù)的方法是使用可用的數(shù)據(jù)集，這就是所謂的訓(xùn)練數(shù)據(jù)。

在訓(xùn)練階段計(jì)算出的值是：

?用于最小化成本函數(shù)的權(quán)重（alpha和theta）。

?支持向量xi，它是訓(xùn)練數(shù)據(jù)的子集。

一旦模型得到訓(xùn)練，就可以插入x的新值（例如新客戶的屬性），然后預(yù)測(cè)x的這些新值所屬的類h（x）（例如它們是否預(yù)期是高利潤(rùn)客戶）。

人工智能項(xiàng)目失敗的原因

人工智能項(xiàng)目在業(yè)務(wù)環(huán)境中失敗的常見方式很多。任何人工智能框架都應(yīng)解決這些問(wèn)題。

失敗的第一個(gè)驅(qū)動(dòng)因素或者是選擇了錯(cuò)誤的用例，或者是在沒(méi)有足夠能力和基礎(chǔ)設(shè)施的情況下使用了太多的用例。可以使用前面描述的條件來(lái)確定更好地適合于人工智能解決方案的問(wèn)題。此外，明智的做法是建立一系列用例，以使功能和知識(shí)以漸進(jìn)的方式構(gòu)建，并隨著技術(shù)的成熟程度的提高而提高。

選擇正確的用例最好與以下人員協(xié)作：

?企業(yè)員工，他們知道業(yè)務(wù)問(wèn)題、環(huán)境和約束，以及他們想要測(cè)試的假設(shè)。

?分析師，他們可以提出問(wèn)題以闡明業(yè)務(wù)意圖和要求，并且可以識(shí)別數(shù)據(jù)源和轉(zhuǎn)換。

?可以制定機(jī)器學(xué)習(xí)和深度學(xué)習(xí)問(wèn)題的數(shù)據(jù)科學(xué)家，以便模型可以為企業(yè)的假設(shè)提供答案。

?可以提供對(duì)數(shù)據(jù)訪問(wèn)權(quán)限的數(shù)據(jù)工程師和IT資源。

正確地預(yù)先組織和安排這些類型的活動(dòng)需要經(jīng)驗(yàn)豐富的跨職能領(lǐng)導(dǎo)者，他們需要了解并可以平衡業(yè)務(wù)影響，運(yùn)營(yíng)驅(qū)動(dòng)因素、工作流障礙和機(jī)遇、數(shù)據(jù)需求和約束以及技術(shù)支持因素。

失敗的第二個(gè)驅(qū)動(dòng)程序錯(cuò)誤地自己構(gòu)建了人工智能模型。這包括兩個(gè)元素：

?盡管數(shù)據(jù)科學(xué)和其他科學(xué)一樣，在本質(zhì)上是實(shí)驗(yàn)性的（在使用數(shù)據(jù)之前，并不真正知道數(shù)據(jù)會(huì)告訴你什么），但數(shù)據(jù)科學(xué)的方法應(yīng)該定義明確，應(yīng)該具有紀(jì)律性，并且應(yīng)該加快價(jià)值時(shí)間。

?優(yōu)秀的數(shù)據(jù)科學(xué)家可以快速進(jìn)行實(shí)驗(yàn)和迭代，從他們的實(shí)驗(yàn)中學(xué)習(xí)，區(qū)分有前途和無(wú)效的方法，并在必要時(shí)研究和調(diào)整前沿方法。優(yōu)秀的數(shù)據(jù)科學(xué)家以快速、并行的方式構(gòu)建最小可行產(chǎn)品（MVP）。

失敗的第三個(gè)驅(qū)動(dòng)因素是缺乏同時(shí)快速構(gòu)建和改進(jìn)多個(gè)人工智能模型的規(guī)模。通常，這歸結(jié)于數(shù)據(jù)科學(xué)家能夠協(xié)同工作，重用數(shù)據(jù)管道、工作流和模型/算法，并重現(xiàn)模型結(jié)果。此外，他們還需要能夠捕獲并快速合并操作反饋（在測(cè)試、登臺(tái)或生產(chǎn)環(huán)境中），以進(jìn)一步構(gòu)建規(guī)模。實(shí)現(xiàn)這一點(diǎn)既需要正確的基礎(chǔ)設(shè)施環(huán)境，也需要正確的模型治理方法。

失敗的第四個(gè)驅(qū)動(dòng)因素是無(wú)法實(shí)現(xiàn)人工智能模型的運(yùn)營(yíng)和貨幣化。一般來(lái)說(shuō)，開發(fā)人工智能模型是出于以下兩個(gè)目的之一：

?發(fā)現(xiàn)以前未經(jīng)確認(rèn)的見解

?自動(dòng)化決策（以降低成本和提高效率/生產(chǎn)率）。

很明顯，從來(lái)沒(méi)有出過(guò)實(shí)驗(yàn)室的模型不能完成這些任務(wù)。

此外，不僅需要部署模型（即使人們或系統(tǒng)可以訪問(wèn)模型），而且還必須以在操作和異常中“使用”它們的方式將它們合并到工作流中。無(wú)法做出具有較高正確性概率的決策，必須進(jìn)行優(yōu)雅的管理（例如通過(guò)人工干預(yù)、模型重新訓(xùn)練和模型回滾）。人工智能的運(yùn)營(yíng)和貨幣化需要逐步但完整的模型工作流集成，數(shù)據(jù)輸入和模型性能參數(shù)的監(jiān)視以及頻繁模型部署的管理。

如何使用人工智能？端到端的人工智能解決方案框架

最后，將所有這些與人工智能解決方案框架結(jié)合在一起。

有四個(gè)組成部分：

?數(shù)據(jù)管理。

?模型開發(fā)。

?模型操作。

?確保使用模型，影響業(yè)務(wù)并改善業(yè)務(wù)指標(biāo)。

第一個(gè)組件是數(shù)據(jù)管理，是當(dāng)前商業(yè)智能環(huán)境的常規(guī)組成部分。

第二部分是模型開發(fā)，包括兩個(gè)廣泛的領(lǐng)域：

?定義適合機(jī)器學(xué)習(xí)模型的用例并確定其優(yōu)先級(jí)。

?大規(guī)模構(gòu)建機(jī)器學(xué)習(xí)模型。

第三個(gè)組成部分，模型操作化，不僅需要模型部署，還需要持續(xù)的再培訓(xùn)和重新部署過(guò)程，模型與操作工作流的集成，以及集成操作反饋以改進(jìn)模型。

所有這些目的是通過(guò)模型的功能獲利。

最后，組織和業(yè)務(wù)影響的第四部分很簡(jiǎn)單（很明顯），但對(duì)組織的人工智能能力的未來(lái)成熟至關(guān)重要。這個(gè)組件的功能是確保人工智能模型被業(yè)務(wù)線實(shí)際使用（也就是說(shuō)，他們信任人工智能模型并從中獲取價(jià)值），并且它們正在影響業(yè)務(wù)結(jié)果。如果沒(méi)有業(yè)務(wù)的支持，人工智能將不會(huì)迅速發(fā)展。

這四個(gè)組件之上是協(xié)作組：IT、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、業(yè)務(wù)部門。人工智能是一項(xiàng)團(tuán)隊(duì)工作。

可以采用這些組件并在其周圍放置參考體系結(jié)構(gòu)，添加一個(gè)稱為模型治理的組件，以確保實(shí)現(xiàn)模型的可再現(xiàn)性，數(shù)據(jù)科學(xué)的可重用性以及數(shù)據(jù)科學(xué)家的協(xié)作，并確保對(duì)模型進(jìn)行重新訓(xùn)練/回滾需要時(shí)可能。

設(shè)計(jì)和實(shí)施類似這個(gè)參考體系結(jié)構(gòu)的解決方案將以健壯性、上市速度和業(yè)務(wù)成果來(lái)支持人工智能解決方案框架。