CPU?核數(shù)與線程數(shù)有什么關(guān)系?
大廚與菜譜
你沒(méi)猜錯(cuò),做菜之前先去下一份菜譜,照著菜譜一步步來(lái):起鍋燒油、蔥姜蒜末下鍋爆香、倒入切好的食材、大火翻炒、加入適量醬油、加入適量鹽、繼續(xù)翻炒、出鍋嘍!這樣一道色香味俱佳的小炒大功告成,裝盤(pán)端出來(lái)拿起筷子一嘗,難吃死了。火候有點(diǎn)過(guò),醬油加的有點(diǎn)少,鹽加多了,中餐里的“火候”以及“適量”是最為神秘的存在,可以意會(huì)不可言傳。因此相對(duì)肯德基麥當(dāng)勞之類(lèi)的標(biāo)準(zhǔn)工業(yè)品,中餐更像是藝術(shù)。每個(gè)人炒出來(lái)的菜味道都不一樣,顯然嘛,每個(gè)人對(duì)火候以及適量的理解是不一樣的。對(duì)不起,跑題了。雖然小風(fēng)哥我廚藝不怎么樣,但輸廚藝不能輸氣場(chǎng),有時(shí)我會(huì)幾樣一起來(lái),這邊炒著A菜,那邊炒著B(niǎo)菜。也就是說(shuō),我可以同時(shí)按照兩份菜譜去做飯,如果小風(fēng)哥足夠快,那么我可以同時(shí)炒 N 樣菜。
炒菜與線程
實(shí)際上CPU和廚師一樣,都是按照菜譜(機(jī)器指令)去執(zhí)行某個(gè)動(dòng)作,從操作系統(tǒng)的角度講當(dāng)CPU切換回用戶態(tài)后,CPU執(zhí)行的一段指令就是線程,或者說(shuō)屬于某個(gè)線程。這和炒菜一樣,我可以按照菜譜抄魚(yú)香肉絲,那么炒菜時(shí)這就是魚(yú)香肉絲線程;我可以按照菜譜抄宮保雞丁,那么炒菜時(shí)這就是宮保雞丁線程。廚師個(gè)數(shù)就好比CPU核心數(shù),炒菜的樣數(shù)就好比線程數(shù),這時(shí)我問(wèn)你,你覺(jué)得廚師的個(gè)數(shù)和可以同時(shí)抄幾樣菜有關(guān)系嗎?答案當(dāng)然是沒(méi)有。CPU的核心數(shù)和線程個(gè)數(shù)沒(méi)有什么必然的關(guān)系。單個(gè)核心上可以跑任意多個(gè)線程,只要你的內(nèi)存夠就行;計(jì)算機(jī)系統(tǒng)內(nèi)也可以有任意多核數(shù),只要你有錢(qián)就行。看到這個(gè)答案你是不是覺(jué)得有點(diǎn)疑惑、有點(diǎn)疑問(wèn)、有點(diǎn)不明所以,這好像和其它人說(shuō)的不一樣??!別著急,我們慢慢講。傻傻的CPU
CPU根本不理解自己執(zhí)行的指令屬于哪個(gè)線程,CPU也不需要理解這些,CPU需要做的事情就是根據(jù)PC寄存器中的地址從內(nèi)存中取出后執(zhí)行,其它沒(méi)了。你看CPU才不管你系統(tǒng)內(nèi)有多少線程。有多少線程是誰(shuí)需要來(lái)關(guān)心的呢?是操作系統(tǒng)。線程是操作系統(tǒng)的把戲。操作系統(tǒng)與多任務(wù)
很久很久以前,計(jì)算機(jī)一次只能執(zhí)行一個(gè)任務(wù),你不能像現(xiàn)在這樣在計(jì)算機(jī)上一邊看電影一邊在下小電影,哦,不對(duì),一邊寫(xiě)代碼,一邊下載資料。要么你先寫(xiě)代碼,寫(xiě)完代碼后再去下資料,要么你先下資料然后再寫(xiě)代碼,總之,這兩個(gè)任務(wù)不能同時(shí)進(jìn)行。這顯然很不方便,就這樣,多任務(wù)——Multi-Tasking,誕生了。你CPU不是只知道執(zhí)行機(jī)器指令嗎?很好,那我操作系統(tǒng)就通過(guò)修改你的PC寄存器,讓你CPU執(zhí)行A任務(wù)的機(jī)器指令一段時(shí)間,然后下一段時(shí)間再去執(zhí)行B任務(wù)的機(jī)器指令,再然后下一個(gè)時(shí)間段去執(zhí)行C任務(wù)的機(jī)器指令,由于每一段時(shí)間非常少,通常在毫秒級(jí)別,那么在人類(lèi)看來(lái)A、B、C三個(gè)任務(wù)在“同時(shí)”運(yùn)行。這就是多任務(wù)的本質(zhì)。進(jìn)程與線程
CPU不知道執(zhí)行的某一段機(jī)器指令屬于A任務(wù)還是B任務(wù),只有操作系統(tǒng)知道,同時(shí)操作系統(tǒng)還能知道任務(wù)A和B任務(wù)是否屬于同一個(gè)地址空間。如果屬于同一個(gè)地址空間,那么任務(wù)A和任務(wù)B就是我們熟悉的“多線程”;如果不屬于同一個(gè)地址空間,那么任務(wù)A和任務(wù)B就是我們熟悉的“多進(jìn)程”,現(xiàn)在你應(yīng)該明白這兩個(gè)概念了吧。這里出現(xiàn)了一個(gè)有點(diǎn)拗口的名詞,地址空間,Address Space,關(guān)于地址空間的概念以及進(jìn)程線程這一部分更加詳細(xì)的講解,請(qǐng)參考小風(fēng)哥的《深入理解操作系統(tǒng)》第7章,關(guān)注公眾號(hào)"碼農(nóng)的荒島求生"并回復(fù)”操作系統(tǒng)“即可。值得注意的是,計(jì)算機(jī)系統(tǒng)還在單核時(shí)代就已經(jīng)有多線程的概念了,我們之前說(shuō)過(guò),即使是單核也可以執(zhí)行多個(gè)線程,那么有的同學(xué)可能會(huì)有疑問(wèn),在單核的系統(tǒng)中開(kāi)啟多個(gè)線程有什么意義嗎?單核與多線程
假設(shè)現(xiàn)在有兩個(gè)任務(wù),任務(wù)A和任務(wù)B,每個(gè)任務(wù)需要的計(jì)算時(shí)間都是5分鐘,那么無(wú)論是任務(wù)A和任務(wù)B串行執(zhí)行還是放到兩個(gè)線程中并行執(zhí)行,在單核環(huán)境下執(zhí)行完這兩個(gè)任務(wù)總需要10分鐘,因此有的同學(xué)覺(jué)得單核下多線程沒(méi)什么用。實(shí)際上,線程這個(gè)概念為程序員提供了一種編程抽象,我們可以把一項(xiàng)任務(wù)進(jìn)行劃分,然后把每一個(gè)子任務(wù)放到一個(gè)個(gè)線程中去運(yùn)行。假如你的程序帶有圖形界面,某個(gè)UI元素背后需要的大量運(yùn)算,這時(shí)為了防止執(zhí)行該運(yùn)算時(shí)UI產(chǎn)生卡頓,那么可以把這個(gè)運(yùn)算任務(wù)放到一個(gè)單獨(dú)的線程中去。因此如果你的目的是防止當(dāng)前線程因執(zhí)行某項(xiàng)操作而不得不等待,那么在這樣的應(yīng)用場(chǎng)景下,你根本就不需要關(guān)心系統(tǒng)內(nèi)是單核還是多核以及有多少個(gè)核。阻塞式I/O
這也是使用線程的經(jīng)典場(chǎng)景。如果沒(méi)有線程,那么執(zhí)行阻塞式I/O時(shí)整個(gè)進(jìn)程會(huì)被操作系統(tǒng)暫停,但如果你開(kāi)啟兩個(gè)線程,其中一個(gè)線程被阻塞時(shí)另一個(gè)線程依然可以繼續(xù)向前推進(jìn)。這樣的話你就不需要去使用反人類(lèi)的異步IO了。當(dāng)然,這一切的前提是你的場(chǎng)景不涉及高性能以及高并發(fā),如果涉及的話那這就是另一個(gè)話題了,如果你想了解這一話題,關(guān)注公眾號(hào)“碼農(nóng)的荒島求生”并回復(fù)“高并發(fā)”即可。在這種簡(jiǎn)單的場(chǎng)景下,你創(chuàng)建線程時(shí)也不需要關(guān)心系統(tǒng)中是單核還是多核。多核時(shí)代
實(shí)際上,線程這個(gè)概念是從2003年左右才開(kāi)始流行的,為什么?因?yàn)檫@一時(shí)期,多核時(shí)代到來(lái)了。之所以產(chǎn)生多核,是因?yàn)閱魏说男阅芴嵘絹?lái)越困難了。盡管采用多進(jìn)程也可以充分利用多核,但畢竟多進(jìn)程編程是很繁瑣的,這涉及復(fù)雜的進(jìn)程間通信機(jī)制、進(jìn)程間切換的較高性能損耗、進(jìn)程間內(nèi)存相互隔離帶來(lái)的對(duì)內(nèi)存消耗等。線程這個(gè)概念很好的解決了上述問(wèn)題,開(kāi)始成為多核時(shí)代的主角,要想充分利用多核資源,線程是程序員的首選工具。真正的并行
有了多核后,運(yùn)行在兩個(gè)線程中的任務(wù)A和任務(wù)B實(shí)現(xiàn)了真正的并行。此前這樣一句話廣為引用,這句話是這么說(shuō)的:threads are for people who can't program state machines“線程是為那些不懂狀態(tài)機(jī)的人準(zhǔn)備的”,這句話在單核時(shí)代有它的道理,因?yàn)樵趩魏藭r(shí)代,所有的任務(wù)都不是在同時(shí)向前推進(jìn),而是“交錯(cuò)”前進(jìn),A前進(jìn)一點(diǎn),然后B前進(jìn)一點(diǎn),線程并不是實(shí)現(xiàn)這種“偽并行”唯一的方法,狀態(tài)機(jī)也可以。但在多核時(shí)代,這句話就不再適用了,對(duì)于大多數(shù)程序員來(lái)說(shuō)多進(jìn)程多線程幾乎是充分利用多核資源的唯一方法。如果你的場(chǎng)景是想充分利用多核,那么這時(shí)你的確需要知道系統(tǒng)內(nèi)有多少核數(shù),一般來(lái)說(shuō)你創(chuàng)建的線程數(shù)需要與核數(shù)保持線性關(guān)系。也就是說(shuō),如果你的核數(shù)翻倍,那么創(chuàng)建的線程數(shù)也要翻倍。
需要多少線程?值得注意的是,線程不是越多越好。如果你的線程是不涉及任何I/O、沒(méi)有任何同步互斥之類(lèi)的純計(jì)算類(lèi)型,那么每個(gè)核心一個(gè)線程通常是最佳選擇。但通常來(lái)說(shuō),線程都需要一定的I/O,可能需要一定的同步互斥,那么這時(shí)適當(dāng)增加線程可能會(huì)提高性能,但當(dāng)線程數(shù)量到達(dá)一個(gè)臨界值后性能開(kāi)始下降,這時(shí)線程間切換的開(kāi)銷(xiāo)將顯著增加。這里之所以用適當(dāng)這個(gè)詞,是因?yàn)檫@很難去量化,只能用你實(shí)際的程序根據(jù)真正的場(chǎng)景進(jìn)行測(cè)試才能得到這個(gè)值。