123,123,123

[導(dǎo)讀]CPU對我們來說既熟悉又陌生，熟悉的是我們知道代碼是被CPU執(zhí)行的，當我們的線上服務(wù)出現(xiàn)問題時可能首先會查看CPU負載情況。陌生的是我們并不知道CPU是如何執(zhí)行代碼的，它對我們的代碼做了什么。本文意在簡單解釋我們代碼的生命周期，以及代碼是如何在CPU上跑起來的。編譯-讓計算機認識...

CPU對我們來說既熟悉又陌生，熟悉的是我們知道代碼是被CPU執(zhí)行的，當我們的線上服務(wù)出現(xiàn)問題時可能首先會查看CPU負載情況。陌生的是我們并不知道CPU是如何執(zhí)行代碼的，它對我們的代碼做了什么。本文意在簡單解釋我們代碼的生命周期，以及代碼是如何在CPU上跑起來的。

編譯-讓計算機認識我

一個漂亮 control c 加上一個漂亮的 control v，啪～，我們愉快的寫下了代碼，當代碼被保存后，它就被存在我們磁盤的某個地方，它可能是像java或者python這些高級語言寫的，也可能是像c這種古老語言寫的，但是現(xiàn)在它肯定沒法被運行，因為計算機不認識它們，計算機只認識0、1這樣的二進制，簡稱機器碼，那為什么我們不直接寫機器碼？如果你有這樣的思考，我只能呵呵了，請你幫我翻譯下以下機器碼：

001010100101001001001
100100101000101010101
很明顯作為高質(zhì)量人類的我們也無法識別出這段代碼寫的是什么，于是出現(xiàn)類似java這樣的高級語言，它們給機器碼穿上了一層外衣，然后交給偉大的程序員來創(chuàng)造未來。

所以反過來我們的代碼需要被替換成機器碼，這樣才能被計算機認識，計算機才能幫我們干事。這個轉(zhuǎn)換的過程我們通常叫「編譯」。

#include
int main()
{
printf("Hello World\n");
return 0;
}
這是一段應(yīng)該每個程序員都寫過的代碼（hello.c），在Linux下，當我們使用GCC來編譯Hello World程序時，只需要最簡單的命令：

gcc hello.c
./hello
# Hello World
看似很簡單的一行，但是其實編譯的過程很復(fù)雜，并不是我們想象中的編譯，真實是分為4個步驟，分別是預(yù)處理(Prepressing)、編譯(Compliation)、匯編(Assertmbly)和鏈接(Linking)。

預(yù)編譯：這個過程主要是處理源代碼中以“#”開始的預(yù)編譯指令，比如“#include”、“define”等。

編譯：這個過程就是把預(yù)處理完的文件進行詞法分析、語法分析、語義分析及優(yōu)化后生產(chǎn)成相應(yīng)的匯編代碼，這個過程是最復(fù)雜的。

匯編：這個過程就是將匯編代碼轉(zhuǎn)換成機器碼，也就是上圖的目標文件hello.o

鏈接：我們的代碼程序經(jīng)常是由多個代碼文件組成的，當每個文件都被匯編成“.o”文件時，需要一套機制將它們「組裝」在一起，這個過程就叫做鏈接。

好吧，原來編譯是這么回事，通過這一整套的編譯操作，我們代碼終于能執(zhí)行了，我們簡簡單單的運行

./hello.out即可輸出Hello World。等等，這個簡簡單單的過程發(fā)生了什么？

連接-中轉(zhuǎn)站和高速公路

ok，ok，通過編譯，我們的程序終于能執(zhí)行了，接下來讓我們站在CPU的視角來看看Hello World是如何被打印出來的。

首先編譯好的文件是存在磁盤上的，得先加載到內(nèi)存中，這里你可能會問：為什么CPU不能直接讀取磁盤的程序運行而要經(jīng)過內(nèi)存？答案是慢，緩慢的磁盤會影響我們程序執(zhí)行的速度，因此需要更加快速、離CPU更近的存儲，那就是內(nèi)存。

內(nèi)存是一大塊存儲空間，可以存儲很多數(shù)據(jù)信息，那么如何找到我們要寫的程序呢？答案是地址，其實每個字節(jié)在內(nèi)存中都有一個地址，這樣當CPU去內(nèi)存中讀我們的程序時，只需要根據(jù)對應(yīng)的地址就可以知道我們程序的具體內(nèi)容。

等等...，這里似乎又有個問題，CPU是如何與我們的內(nèi)存、磁盤通信的？應(yīng)該有個媒介之類的吧。沒錯，這個媒介就是主板上的總線和芯片組，總線好理解，就像高速公路，數(shù)據(jù)信息可以通過這條高速公路傳遞到CPU中，這個芯片組是個什么玩意？電腦主板上芯片很多，這里說的主要是南橋芯片和北橋芯片。先來個解釋：

北橋芯片：北橋負責高速設(shè)備和CPU之間的溝通，主要就是CPU和內(nèi)存、顯卡之間的通信，但是隨著技術(shù)的迭代，主板上的北橋芯片已經(jīng)被內(nèi)置到了CPU里了。

南橋芯片：南橋負責低速設(shè)備和北橋之間的通信，主要負責I/O總線之間的通信，如USB、LAN、ATA、SATA、音頻控制器、鍵盤控制器、實時時鐘控制器、高級電源管理等。

嗯... 為什么CPU與高速設(shè)備、低速設(shè)備之間的通信需要這兩個芯片？CPU自己不能干嗎？這里還是類似拆分任務(wù)的功能，如果把所有的任務(wù)都交給CPU來處理，CPU會太忙了，還有比較重要的一點，如果南橋芯片壞了，那么我們可以直接更換南橋，而不用換掉整個CPU。

終于CPU通過總線和芯片打通了磁盤、內(nèi)存之間的通信了，接下來的一切開始交給CPU。

CPU-最強大腦

CPU全稱是Central Processing Unit，即中央處理單元，它的本質(zhì)就是一塊超大規(guī)模的集成電路。從邏輯上來分，它的內(nèi)部是由寄存器、控制器、運算器和時鐘組成的，下面來解釋下各個組成是干什么的。

寄存器：CPU內(nèi)部其實有很多類型的寄存器，我們只需了解寄存器就是暫存數(shù)據(jù)、指令等信息的，它的本質(zhì)是臨時存儲，由于是直接集成在CPU內(nèi)部，所以讀寫它們的速度很快，一般一個CPU內(nèi)部會有20-100個寄存器，這里給大家列舉下常用寄存器與其功能。
累加寄存器：存儲執(zhí)行運算的數(shù)據(jù)和運算后的數(shù)據(jù)
標志寄存器：存儲運算處理后的CPU的狀態(tài)
程序計數(shù)器：存儲下一條指令所在內(nèi)存的地址
基址寄存器：存儲數(shù)據(jù)內(nèi)存的起始地址
變址寄存器：存儲基址寄存器的相對地址
通用寄存器：存儲任意數(shù)據(jù)
指令寄存器：存儲指令，CPU內(nèi)部使用，程序員無法通過程序?qū)υ摷拇嫫鬟M行讀寫操作
棧寄存器：存儲棧區(qū)域的起始地址
控制器：控制器負責把數(shù)據(jù)讀出或者寫入寄存器，并根據(jù)指令的結(jié)果來控制計算機。
運算器：從名字就可以猜出來，運算器的主要工作就是運算，運算從內(nèi)存讀入寄存器的值
時鐘：它并不是我們見的鐘表概念，它代表了你的CPU的工作頻率，頻率越高說明你的CPU處理的速度越快，但是越快就會帶來另一個問題：散熱。

綜上所述，CPU的大致工作流程如下：在時鐘信號到來的時候，就開始工作，通過控制器把內(nèi)存的數(shù)據(jù)讀到各個寄存器中，然后如果有計算相關(guān)的邏輯，就交給運算器。發(fā)現(xiàn)沒有，CPU的工作其實挺簡單的，本質(zhì)就是不停的讀指令、執(zhí)行指令。但是CPU是如何讀到我們的代碼指令的，以及我們的代碼里面的if else、函數(shù)調(diào)用都是如何執(zhí)行分支判斷、函數(shù)跳轉(zhuǎn)的，我們來看個例子：

a = 1 #0x0010
b = 2 #0x0011
if a > b { #0x0012
printf("%s","a") #0x0013
} else {
add(a,b) #0x0014
}
printf("%s","end") #0x0017

func add(int a,int b) { #0x0020
return a b
}
這是段非常簡單的偽代碼，有分支判斷、有函數(shù)跳轉(zhuǎn)。我們來從CPU的角度看看它是如何執(zhí)行的：

首先每段程序都有個開始的地址0x0010，也就是CPU讀取程序的入口

把a=1這個數(shù)字讀入通用寄存器中，程序計數(shù)器（PC寄存器）自動加1，即指向下一條指令 0x0011

指令寄存器拿到程序計數(shù)器的指令地址，把b=2這個數(shù)字讀入通用寄存器中，程序計數(shù)器（PC寄存器）自動加1，即指向下一條指令0x0012

指令寄存器發(fā)現(xiàn)此處是比較邏輯，會執(zhí)行a-b，此時可能會有三個結(jié)果分別是大于0，等于0，小于0，然后把這個結(jié)果存到標志寄存器里，這里有個小知識，我們經(jīng)常說的是CPU是64位或者32位，其實也表示了標志寄存器的長度

很明顯，a是小于b的，CPU根據(jù)標志寄存器的狀態(tài)值應(yīng)該跳轉(zhuǎn)到else里面，注意這時程序計數(shù)器的值不是加1，而是設(shè)置成else的地址 0x0014，當執(zhí)行到0x0015的時候，需要發(fā)生函數(shù)跳轉(zhuǎn)，程序計數(shù)器會被設(shè)置成 0x0020，但是這里并不是簡單的函數(shù)跳轉(zhuǎn)（專業(yè)術(shù)語叫做call），因為在函數(shù)執(zhí)行完畢之后，還要返回，也就是程序計數(shù)器需要從0x0020再變成0x0017。call執(zhí)行的時候會把后續(xù)要執(zhí)行的指令地址0x0017存到棧中。

當我們的add函數(shù)執(zhí)行完畢之后，會有個return，return的時候會把上一步驟存入棧中的地址0x0017寫入程序計數(shù)器中

指令寄存器根據(jù)程序計數(shù)器當前的地址執(zhí)行最后的打印（end），結(jié)束。

順序執(zhí)行的指令代碼，程序計數(shù)器會自動累加（當然不一定累加的是1），然后找到下一條要執(zhí)行的指令。

分支判斷的時候，程序計數(shù)器不是簡單的累加地址，需要地址的跳轉(zhuǎn)。

函數(shù)調(diào)用不僅僅需要跳轉(zhuǎn)地址，還要把函數(shù)執(zhí)行完畢之后要執(zhí)行的地址存下來，方便折回繼續(xù)執(zhí)行。

其實還有個循環(huán)執(zhí)行，也就是我們代碼中的for、while之類的，這時程序計數(shù)器會不停的在某些地址之間來回切換。