近期大熱的人工智能最全的入門(mén)級(jí)書(shū)單(附PDF)
機(jī)器學(xué)習(xí)篇
在機(jī)器學(xué)習(xí)上,首先要推薦的是兩部國(guó)內(nèi)作者的著作:李航博士所著的《統(tǒng)計(jì)學(xué)習(xí)方法》和周志華教授的《機(jī)器學(xué)習(xí)》。
《統(tǒng)計(jì)學(xué)習(xí)方法》采用“總 - 分 - 總”的結(jié)構(gòu),在梳理了統(tǒng)計(jì)學(xué)習(xí)的基本概念后,系統(tǒng)而全面地介紹了統(tǒng)計(jì)學(xué)習(xí)中的 10 種主要方法,最后對(duì)這些算法做了總結(jié)與比較。這本書(shū)以數(shù)學(xué)公式為主,介紹每種方法時(shí)都給出了詳盡的數(shù)學(xué)推導(dǎo),幾乎不含任何廢話(huà),因而對(duì)讀者的數(shù)學(xué)背景也提出了較高的要求。
相比之下,《機(jī)器學(xué)習(xí)》覆蓋的范圍更廣,具有更強(qiáng)的導(dǎo)論性質(zhì),有助于了解機(jī)器學(xué)習(xí)的全景。書(shū)中涵蓋了機(jī)器學(xué)習(xí)中幾乎所有算法類(lèi)別的基本思想、適用范圍、優(yōu)缺點(diǎn)與主要實(shí)現(xiàn)方式,并穿插了大量通俗易懂的實(shí)例。
如果說(shuō)《統(tǒng)計(jì)學(xué)習(xí)方法》勝在深度,那么《機(jī)器學(xué)習(xí)》就勝在廣度。在具備廣度的前提下,可以根據(jù)《機(jī)器學(xué)習(xí)》中提供的豐富參考文獻(xiàn)繼續(xù)深挖。
讀完以上兩本書(shū),就可以閱讀一些經(jīng)典著作了。經(jīng)典著作首推 Tom Mitchell 所著的 Machine Learning,中譯本名為《機(jī)器學(xué)習(xí)》。本書(shū)成書(shū)于 1997 年,雖然難以覆蓋機(jī)器學(xué)習(xí)中的最新進(jìn)展,但對(duì)于基本理論和核心算法的論述依然鞭辟入里,畢竟經(jīng)典理論經(jīng)得起時(shí)間的考驗(yàn)。這本書(shū)的側(cè)重點(diǎn)也在于廣度,并不涉及大量復(fù)雜的數(shù)學(xué)推導(dǎo),是比較理想的入門(mén)書(shū)籍。作者曾在自己的主頁(yè)上說(shuō)本書(shū)要出新版,并補(bǔ)充了一些章節(jié)的內(nèi)容,也許近兩年可以期待新版本的出現(xiàn)。
另一本經(jīng)典著作是 Trevor Hastie 等人所著的 Elements of Statistical Learning,于 2016 年出版了第二版。這本書(shū)沒(méi)有中譯,只有影印本。高手的書(shū)都不會(huì)用大量復(fù)雜的數(shù)學(xué)公式來(lái)嚇唬人(專(zhuān)于算法推導(dǎo)的書(shū)除外),這一本也不例外。它強(qiáng)調(diào)的是各種學(xué)習(xí)方法的內(nèi)涵和外延,相比于具體的推演,通過(guò)方法的來(lái)龍去脈來(lái)理解其應(yīng)用場(chǎng)景和發(fā)展方向恐怕更加重要。
壓軸登場(chǎng)的非 Christopher Bishop 所著的 Pattern Recognition and Machine Learning 莫屬了。本書(shū)出版于 2007 年,沒(méi)有中譯本,也許原因在于將這樣一本煌煌巨著翻譯出來(lái)不知要花費(fèi)多少挑燈夜戰(zhàn)的夜晚。這本書(shū)的特點(diǎn)在于將機(jī)器學(xué)習(xí)看成一個(gè)整體,不管于基于頻率的方法還是貝葉斯方法,不管是回歸模型還是分類(lèi)模型,都只是一個(gè)問(wèn)題的不同側(cè)面。作者能夠開(kāi)啟上帝視角,將機(jī)器學(xué)習(xí)的林林總總都納入一張巨網(wǎng)之中,遺憾的是,大多數(shù)讀者跟不上他高屋建瓴的思路(也包括我自己)。
最后推薦的是 David J C MacKay 所著的 Information Theory, Inference and Learning Algorithms,成書(shū)于 2003 年,中譯本名為《信息論,推理與學(xué)習(xí)算法》。本書(shū)作者是一位全才型的科學(xué)家,這本書(shū)也并非機(jī)器學(xué)習(xí)的專(zhuān)著,而是將多個(gè)相關(guān)學(xué)科熔于一爐,內(nèi)容涉獵相當(dāng)廣泛。相比于前面板著臉的教科書(shū),閱讀本書(shū)的感覺(jué)就像在和作者聊天,他會(huì)在談笑間拋出各種各樣的問(wèn)題讓你思考。廣泛的主題使本書(shū)的閱讀體驗(yàn)并不輕松,但可以作為擴(kuò)展視野的一個(gè)調(diào)節(jié)。
數(shù)學(xué)篇
1、線(xiàn)性代數(shù)
推薦兩本國(guó)外的教材。其一是 Gilbert Strang 所著的 Introduction to Linear Algebra,英文版在 2016 年出到第五版,暫無(wú)中譯本。這本通過(guò)直觀(guān)形象的概念性解釋闡述抽象的基本概念,同時(shí)輔以大量線(xiàn)性代數(shù)在各領(lǐng)域內(nèi)的實(shí)際應(yīng)用,對(duì)學(xué)習(xí)者非常友好。作者在麻省理工學(xué)院的 OCW 上開(kāi)設(shè)了相應(yīng)的視頻課程,還配有習(xí)題解答、模擬試題等一系列電子資源。
其二是 David C Lay 所著的 Linear Algebra and its Applications,英文版在 2015 年同樣出到第五版,中譯本名為《線(xiàn)性代數(shù)及其應(yīng)用》,對(duì)應(yīng)原書(shū)第四版。這本書(shū)通過(guò)向量和線(xiàn)性方程組這些基本概念深入淺出地介紹線(xiàn)代中的基本概念,著重公式背后的代數(shù)意義和幾何意義,同樣配有大量應(yīng)用實(shí)例,對(duì)理解基本概念幫助很大。
2、概率論
基礎(chǔ)讀物可以選擇 Sheldon M Ross 所著的 A First Course in Probability,英文版在 2013 年出到第九版(18 年馬上要出第十版),中譯本名為《概率論基礎(chǔ)教程》,對(duì)應(yīng)原書(shū)第九版,也有英文影印本。這本書(shū)拋開(kāi)測(cè)度,從中心極限定理的角度討論概率問(wèn)題,對(duì)概念的解釋更加通俗,書(shū)中還包含海量緊密聯(lián)系生活的應(yīng)用實(shí)例與例題習(xí)題。
另一本艱深的讀物是 Edwin Thompson Jaynes 所著的 Probability Theory: The Logic of Science,本書(shū)暫無(wú)中譯本,影印本名為《概率論沉思錄》也已絕版。這本書(shū)是作者的遺著,花費(fèi)半個(gè)世紀(jì)的時(shí)間完成,從名字就可以看出是一部神書(shū)。作者從邏輯的角度探討了基于頻率的概率,貝葉斯概率和統(tǒng)計(jì)推斷,將概率論這門(mén)偏經(jīng)驗(yàn)的學(xué)科納入數(shù)理邏輯的框架之下。如果讀這本書(shū),千萬(wàn)要做好燒腦的準(zhǔn)備。
3、數(shù)理統(tǒng)計(jì)
基礎(chǔ)讀物可以選擇陳希孺院士所著的《數(shù)理統(tǒng)計(jì)學(xué)教程》。關(guān)于統(tǒng)計(jì)學(xué)是不是科學(xué)的問(wèn)題依然莫衷一是,但它在機(jī)器學(xué)習(xí)中的重要作用毋庸置疑。陳老的書(shū)重在論述統(tǒng)計(jì)的概念和思想,力圖傳授利用統(tǒng)計(jì)觀(guān)點(diǎn)去觀(guān)察和分析事物的能力,這是非常難能可貴的。
進(jìn)階閱讀可以選擇 Roger Casella 所著的 Statistical Inference,由于作者已于 2012 年辭世,2001 年的第二版便成為絕唱。中譯本名為《統(tǒng)計(jì)推斷》,亦有影印本。本書(shū)包含部分概率論的內(nèi)容,循循善誘地介紹了統(tǒng)計(jì)推斷、參數(shù)估計(jì)、方差回歸等統(tǒng)計(jì)學(xué)中的基本問(wèn)題。
4、最優(yōu)化理論
可以參考 Stephen Boyd 所著的 Convex Optimization,中譯本名為《凸優(yōu)化》。這本書(shū)雖然塊頭嚇人,但可讀性并不差,主要針對(duì)實(shí)際應(yīng)用而非理論證明,很多機(jī)器學(xué)習(xí)中廣泛使用的方法都能在這里找到源頭。
5、信息論
推薦 Thomas Cover 和 Jay A Thomas 合著的 Elements of Information Theory,2006 年出到第二版,中譯本為《信息論基礎(chǔ)》。這本書(shū)兼顧廣度和深度,雖然不是大部頭卻干貨滿(mǎn)滿(mǎn),講清了信息論中各個(gè)基本概念的物理內(nèi)涵,但要順暢閱讀需要一定的數(shù)學(xué)基礎(chǔ)。另外,本書(shū)偏重于信息論在通信中的應(yīng)用。
PDF 鏈接
機(jī)器學(xué)習(xí)篇Machine Learning
http://www.cs.ubbcluj.ro/~gabis/ml/ml-books/McGrawHill%20-%20Machine%20Learning%20-Tom%20Mitchell.pdf
Elements of Statistical Learning
https://web.stanford.edu/~hastie/Papers/ESLII.pdf
Pattern Recognition and Machine Learning
http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf
Information Theory, Inference and Learning Algorithms
http://www.inference.org.uk/itprnn/book.pdf
數(shù)學(xué)篇Introduction to Linear Algebra
https://math.mit.edu/~gs/linearalgebra/linearalgebra5_Preface.pdf
Linear Algebra and its Applications
http://www.zuj.edu.jo/download/linear-algebra-and-its-applications-david-c-lay-pdf/
A First Course in Probability(8th edition)
http://julio.staff.ipb.ac.id/files/2015/02/Ross_8th_ed_English.pdf
Probability Theory: The Logic of Science
http://www.med.mcgill.ca/epidemiology/hanley/bios601/GaussianModel/JaynesProbabilityTheory.pdf
Statistical Inference
https://fsalamri.files.wordpress.com/2015/02/casella_berger_statistical_inference1.pdf
Convex Optimization
https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Elements of Information Theory
http://www.cs-114.org/wp-content/uploads/2015/01/Elements_of_Information_Theory_Elements.pdf