CFA二級思維導(dǎo)圖分享:機器學(xué)習(xí)
Reading7主要了解機器學(xué)習(xí)的一些常見概念,主要分類、了解常用算法的原理及其用途。
機器學(xué)習(xí)(Machine Learning)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。從實踐的意義上來說,機器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測的一種方法。
相比于傳統(tǒng)統(tǒng)計學(xué)方法(回歸分析)依賴于假設(shè)和先驗性的限制性條件,機器學(xué)習(xí)可以沒有假設(shè)的情況下訓(xùn)練模型,機器學(xué)習(xí)的一個計算原理是“find the pattern, apply the pattern”。
根據(jù)數(shù)據(jù)類型的不同,機器學(xué)習(xí)通用的分類為:監(jiān)督學(xué)習(xí)(Supervised Learning)、非監(jiān)督學(xué)習(xí)(Unsuperviese Learning)、深度學(xué)習(xí)和強化學(xué)習(xí)(Deep Learning & Reinforcement Learning)。
樣本分類
在機器學(xué)習(xí)中,訓(xùn)練模型的算法數(shù)據(jù)集包括:訓(xùn)練樣本(Trainning Sample),檢驗樣本(validation sample)、驗證樣本(TesTIng Sample)。訓(xùn)練樣本用于訓(xùn)練得出模型,檢驗樣本用于修正模型,驗證樣本用于檢驗?zāi)P偷挠行浴?/p>
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的主要區(qū)別在于訓(xùn)練樣本是否已經(jīng)標(biāo)定了結(jié)果,。打個簡單的類比來說,監(jiān)督學(xué)習(xí)就是給你一堆習(xí)題,這些習(xí)題是有標(biāo)準(zhǔn)答案的,學(xué)習(xí)(算法)完之后給一張考卷,測驗考試成績。而非監(jiān)督學(xué)習(xí),就是給你 一堆數(shù)據(jù),自己去發(fā)現(xiàn)規(guī)律,然后將規(guī)律應(yīng)用到新的數(shù)據(jù)中,類似于給一堆樂高積木,自己去發(fā)現(xiàn)規(guī)律, 考試就給另外一堆樂高積木,看能否應(yīng)用之前發(fā)現(xiàn)的規(guī)律。
監(jiān)督學(xué)習(xí)算法
監(jiān)督學(xué)習(xí)可應(yīng)用于回歸和分類問題,回歸和分類的區(qū)別在于輸出的結(jié)果是連續(xù)變量還是分類變量。常見的回歸算法有懲罰性回歸算法,LASSO。常用的分類算法有支持向量機(Support vector machine (SVM))、近鄰算法(K-nearest neighbor (KNN) 、分類回歸樹(ClassificaTIon and Regression Tree (CART)),以及集成算法,集成算法為將多種不同的算法或模型集成到一起,將各個不同模型的結(jié)果放到一起,按模型結(jié)果的最大值作為整個算法的結(jié)果,如Bootstrap AggregaTIng (Bagging)、隨機森林(random forest)
非監(jiān)督學(xué)習(xí)算法
非監(jiān)督學(xué)習(xí)用于解決降維和聚類問題,降維是一種減少特征數(shù)量的方法,選出對結(jié)果影響最大的特征。聚類問題就是把含相似特征的數(shù)據(jù)放到一起。
降維主要的算法是主成分分析(PCA)算法,聚類問題的算法包括k-means clustering、分層聚類hierarchical clustering、樹狀圖Dendrograms。
深度學(xué)習(xí)
第三類深度學(xué)習(xí),既可能是監(jiān)督學(xué)習(xí),也可能是非監(jiān)督學(xué)習(xí)。包括神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN/ANN)、深度學(xué)習(xí)(deep learning nets ,DLNs)和強化學(xué)習(xí)(Reinforcement learning ,RL)
神經(jīng)網(wǎng)絡(luò)由輸入層(Input layer)、隱藏層(hidden layers)和輸出層(Output layer)構(gòu)成。深度學(xué)習(xí)是至少有3個,一般超過20個的隱藏層。