對比Ruby和Python的垃圾回收
注:這篇文章基于我在布達(dá)佩斯的RuPy大會上所作的演講。我覺得與其直接將幻燈片發(fā)布出來,不如在我還有印象的時候?qū)⑺鼘懗刹┛蛠淼母幸饬x。同樣,我會在將來發(fā)布RuPy大會的視頻鏈接。我計劃將在RubyConf大會上發(fā)表類似的演講,除了有關(guān)于Python的部分,并且將對比MRI,JRuby以及Rubinius的垃圾回收器是怎樣工作的。
如果想要對Ruby垃圾回收器以及內(nèi)部原理有更加深入的了解,你可以在我即將出版的新書《Ruby Under a Microscope》中找到答案。
如果算法和業(yè)務(wù)邏輯是一個人的大腦,那么垃圾回收機(jī)制是人體的哪個器官呢?
在”Ruby Python”大會上,我想對比Ruby和Python內(nèi)部的垃圾回收機(jī)制是一件很有意思的事情。在開始之前,我們?yōu)槭裁匆懻摾厥諜C(jī)制呢?畢竟這是一個最迷人的,最令人激動的主題,不是嗎?你們有多少人對垃圾回收機(jī)制感到興奮?(許多的大會參與者竟然舉起了雙手!)
最近,在Ruby社區(qū)中有一篇帖子,關(guān)于怎樣通過修改Ruby GC的設(shè)置來提高單元測試的速度。這棒極了!通過減少GC垃圾回收的處理來提高測試的速度,這是一件很好的事情,但是不怎的,GC不會真正的讓我感到興奮。就如咋一看就感覺令人厭煩,枯燥的技術(shù)帖子。
事實(shí)上,垃圾回收是一個令人著迷的主題:垃圾回收算法不僅是計算機(jī)科學(xué)歷史一個重要的部分,更是前沿研究的一個主題。例如,MRI Ruby解釋器使用的”Mark Sweep”算法已經(jīng)超過了50年的歷史,與此同時,在Rubinius解釋器中使用的一種垃圾回收算法,是在Ruby中的另一種實(shí)現(xiàn)方式,這種算法僅僅是在2008才被研究出來。
然而,”垃圾回收”的這個名稱,是非常的不恰當(dāng)?shù)摹?/p>
應(yīng)用程序的心臟
垃圾回收系統(tǒng)要做的不僅僅是”回收垃圾”。事實(shí)上,它主要完成三個重要任務(wù):
為新的對象分配內(nèi)存
標(biāo)記垃圾對象
回收垃圾對象占用的內(nèi)存
想象你的應(yīng)用程序是一個人的身體:所有你寫的優(yōu)雅的代碼,你的商業(yè)邏輯,你的算法,將會成為你的應(yīng)用程序的大腦或智能。與此類似的,你認(rèn)為垃圾回收器會成為身體的哪一個部分呢?(我從大會的聽眾中得到了很多有趣的答案:腎,白細(xì)胞)
我認(rèn)為垃圾回收器是一個應(yīng)用的心臟。正如心臟為身體的其他部分提供血液和養(yǎng)料一樣,垃圾回收器提供內(nèi)存和對象供程序使用。如果你的心臟停跳,你將活不了幾秒。如果垃圾回收器停止運(yùn)行或者變慢,就像動脈阻塞一樣,你的程序?qū)⒆兊穆聛碜詈笏赖?
一個簡單的例子
通過例子來驗(yàn)證理論是一種很好的方式。這里有一個簡單的類,用Python和Ruby寫成,我們可以將它們作為一個簡單的例子:
于此同時,兩種代碼如此相似讓我感到非常吃驚:Python和Ruby在表達(dá)相同的語義時幾乎沒有差別。但是,兩種語言的內(nèi)部實(shí)現(xiàn)方式是否相同呢?
空閑對象鏈表
在上面的代碼中,當(dāng)我們調(diào)用了Node.new(1)之后,ruby將會做什么?也就是說,Ruby怎樣創(chuàng)建一個新的對象?
令人驚訝的是,Ruby做的事情非常少!事實(shí)上,在代碼運(yùn)行之前,Ruby解釋器會提前創(chuàng)建成千上萬的對象放置到一個鏈表中,這個鏈表被稱為”空閑對象鏈表”(free list)??臻e對象鏈表(`free list`)在概念上看起來像下面的樣子:
每一個白色方塊可以想象成一個預(yù)創(chuàng)建的,沒有使用的Ruby對象。當(dāng)我們調(diào)用Node.new,Ruby簡單的使用一個對象,并且將它的引用返回給我們:
在上圖中,左邊的灰色方塊代表一個活躍的Ruby對象,被我們的代碼所使用,而其余的白色方塊代碼沒有使用的對象。(注意:當(dāng)然,圖中是一種簡化的實(shí)現(xiàn)版本。事實(shí)上,Ruby將會使用另外一個對象保存字符串”ABC”,使用第三個對象保存Node的定義,以及其他的對象保存代碼處理過的抽象語法數(shù)”AST”,等待。)
如果我們再次調(diào)用Node.new,Ruby僅僅返回另外一個對象的引用。
約翰麥卡錫在1960年在Lisp中首次實(shí)現(xiàn)了垃圾回收機(jī)制
這中使用預(yù)創(chuàng)建對象鏈表的簡單算法發(fā)明于50多年前,它的作者是傳說中的計算機(jī)科學(xué)家,約翰麥卡錫,正是他實(shí)現(xiàn)了最初的Lisp解釋器。Lisp不僅是第一個函數(shù)式編程語言,并且包含了計算機(jī)科學(xué)中許多突破性的進(jìn)展。其中之一便是通過垃圾回收機(jī)制自動管理內(nèi)存。
標(biāo)準(zhǔn)版Ruby,也就是”Matz’s Ruby Interpreter”(MRI),使用了一種類似于約翰麥卡錫在1960年實(shí)現(xiàn)的Lisp的垃圾回收算法。就像Lisp一樣,Ruby會預(yù)先創(chuàng)建對象并且在你創(chuàng)建對象或值的時候返回對象的引用。
在Python中分配對象內(nèi)存
從上面我們可以看出,Ruby會預(yù)先創(chuàng)建對象,并且保存在空閑對象鏈表(free list)中。那么Python呢?
[!--empirenews.page--]當(dāng)然Python內(nèi)部也會由于各種原因使用空閑對象鏈表(它使用鏈表循環(huán)確定對象),Python為對象和值分配內(nèi)存的方式常常不同于Ruby。
假設(shè)我們創(chuàng)建一個Node對象使用Python:
Python不同于Ruby,當(dāng)你創(chuàng)建對象的時候,Python會立即向操作系統(tǒng)申請分配內(nèi)存。(Python 事實(shí)上實(shí)現(xiàn)了自己的內(nèi)存分配系統(tǒng),它在操作系統(tǒng)內(nèi)存堆上提供了另外一層抽象,但是今天沒有事件深入探討。 )
當(dāng)我們創(chuàng)建第二個對象時,Python將再次向操作系統(tǒng)申請更多的內(nèi)存:
看起來相當(dāng)簡單,當(dāng)我們創(chuàng)建Python對象的時刻,將花費(fèi)事件申請內(nèi)存。
Ruby將沒有用的對象扔的到處都是,直到下一個垃圾回收過程
Ruby開發(fā)者生活在一個臟亂的房間
回到Ruby,由于我們分配越來越多的對象,Ruby將繼續(xù)為我們從空閑對象鏈表(free list)獲取預(yù)分配對象。因此,空閑對象鏈表將變得越來越短:
或者更短:
請注意,我將一個新的值賦給了n1,Ruby會遺留下舊的值。”ABC”, “JKL”和”MNO”等結(jié)點(diǎn)對象會依然保留在內(nèi)存中。Ruby不會立即清理舊的對象盡管程序不再使用!作為一名Ruby開發(fā)者就像生活在一個臟亂的房間,衣服隨意的仍在地板上,廚房的水槽中堆滿了臟盤子。作為一個Ruby開發(fā)者,你必須在一大堆垃圾對象中去工作。
當(dāng)你的程序不在使用任何對象的時候,Python會立刻進(jìn)行清理。
Python開發(fā)者生活在一所整潔的房子
垃圾回收機(jī)制在Python和Ruby中迥然不同,讓我們回到前面三個Python中Node對象的例子:
內(nèi)部的,每當(dāng)我們新建一個對象,Python將在對象對應(yīng)的C語言結(jié)構(gòu)中保存一個數(shù)字,叫做引用技術(shù)。最初,Python將它的值設(shè)為1。
值為1表明每個對象有一個指針或引用指向它。假設(shè)我們創(chuàng)建一個新的對象,JKL:
正如前面所說,Python將”JKL”的引用計數(shù)設(shè)置為1。同樣注意到我們改變n1指向了”JKL”,不再引用”ABC”,同時將”ABC”的引用計數(shù)減少為0。
通過這一點(diǎn),Python垃圾回收器將會立即執(zhí)行!無論何時,只要一個對象的引用計數(shù)變?yōu)?,python將立即釋放這個對象,并且將它的內(nèi)存返回給操作系統(tǒng)。
上圖中,Python將回收”ABC”對象的內(nèi)存。記住,Ruby只是將舊的對象遺留在那里并且不去釋放它們占用的內(nèi)存。
這種垃圾回收算法被稱為”引用計數(shù)”,由喬治柯林斯發(fā)明于1960年。非常巧合的是在同一年約翰麥卡錫大叔發(fā)明了”空閑對象鏈表算法”。正如Mike Bernstein在Ruby Conference大會上所說”1960年是屬于垃圾回收器的…”。
作為一個Python開發(fā)者,就像生活在一個整潔的房間中。你知道,你的室友有些潔癖,他會把你使用過的任何東西都清洗一遍。你把臟盤子,臟杯子一放到水槽中他就會清洗。
現(xiàn)在看另外一個例子,假設(shè)我們讓n2和n1指向同樣的結(jié)點(diǎn):
上圖左邊可以看到,Python減少了”DEF”的引用計數(shù)并且立即回收了”DEF”對象。同時可以看到,由于n1和n2同時指了”JKL”對象,所以它的引用計數(shù)變?yōu)榱?。
標(biāo)記回收算法
最終臟亂的房間將堆慢垃圾,生活不能總是如此。Ruby程序在運(yùn)行一段時間之后,空閑對象鏈表最終將被用盡。
上圖中所有的預(yù)分配對象都被用盡(方塊全部變成了灰色),鏈表上沒有對象可用(沒有剩余的白色方塊)。
此時,Ruby使用了一種由約翰麥卡錫發(fā)明的被稱為”標(biāo)記回收”的算法。首先,Ruby將停止程序的執(zhí)行,Ruby使用了”停止這個世界,然后回收垃圾”的方式。然后,Ruby會掃描所有的指向?qū)ο蠛椭档闹羔樆蛞谩M瑯?,Ruby也會迭代虛擬機(jī)內(nèi)部使用的指針。它會標(biāo)記每一個指針?biāo)艿竭_(dá)的對象。在下圖中,我使用了”M”指出了這些標(biāo)記:[!--empirenews.page--]
上面三個”M”標(biāo)記的對象為活躍對象,依然被我們的程序使用。在Ruby解釋器內(nèi)部,通常使用”free bitmap”的數(shù)據(jù)結(jié)構(gòu)來保存一個對象是否被標(biāo)記:
Ruby將”free bitmap”保存在一個獨(dú)立的內(nèi)存區(qū)域,以便可以更好的利用Unix的”copy-on-write”特性。更詳細(xì)的信息,請參考我的另一篇文章《為什么Ruby2.0的垃圾回收器讓我們?nèi)绱伺d奮》。
如果活躍對象被標(biāo)記了,那么其余的便是垃圾對象,意味著它們不再會被代碼使用。在下圖中,我使用白色的方塊表示垃圾對象:
接下來,Ruby將清理沒有使用的,垃圾對象,將它們鏈入空閑對象鏈表(free list):
在解釋器內(nèi)部,這個過程非常迅速,Ruby并不會真正的將對象從一個地方拷貝到另一個地方。相反的,Ruby會將垃圾對象組成一個新的鏈表,并且鏈入空閑對象鏈表(free list)。
現(xiàn)在,當(dāng)我們要創(chuàng)建一個新的Ruby對象的時候,Ruby將為我們返回收集的垃圾對象。在Ruby中,對象是可以重生的,享受著多次的生命!
標(biāo)記回收算法 vs. 引用計數(shù)算法
咋一看,Python的垃圾回收算法對于Ruby來說是相當(dāng)讓人感到驚訝的:既然可以生活在一個整潔干凈的房間,為什么要生活在一個臟亂的房間呢?為什么Ruby周期性的強(qiáng)制停止程序的運(yùn)行去清理垃圾,而不使用Python的算法呢?
然而,引用計數(shù)實(shí)現(xiàn)起來不會像它看起來那樣簡單。這里有一些許多語言不愿像Python一樣使用引用計數(shù)算法的原因:
首先,實(shí)現(xiàn)起來很困難。Python必須為每一個對象留有一定的空間來保存引用計數(shù)。這會導(dǎo)致一些細(xì)微的內(nèi)存開銷。但更遭的是,一個簡答的操作例如改變一個變量或引用將導(dǎo)致復(fù)雜的操作,由于Python需要增加一個對象的計數(shù),減少另一個對象的計數(shù),有可能釋放一個對象。
其次,它會減慢速度。盡管Python在程序運(yùn)行過程中垃圾回收的過程非常順暢(當(dāng)你把臟盤子放到水槽后,它立馬清洗干凈),但是運(yùn)行的并不十分迅速。Python總是在更新引用計數(shù)。并且當(dāng)你停止使用一個巨大的數(shù)據(jù)結(jié)構(gòu)時,例如一個包含了大量元素的序列,Python必須一次釋放許多對象。減少引用計數(shù)可能是一個復(fù)雜的,遞歸的過程。
最后,它并不總是工作的很好。在我演講的下一部分,也就是下一篇帖子中能看到,引用計數(shù)不能處理循環(huán)引用數(shù)據(jù)結(jié)構(gòu),它包含循環(huán)引用。
下一次…
下周我將發(fā)布演講的其他部分。我將討論P(yáng)ython怎樣處理循環(huán)引用數(shù)據(jù)結(jié)構(gòu),以及在即將到來的Ruby2.1中,垃圾回收器是怎樣工作的。