由一個bug引發(fā)的SQLite緩存一致性探索

時間：2018-10-16 09:02:01

關鍵字： sqlite 緩存

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]問題? ? ?我們在生產環(huán)境中使用SQLite時中發(fā)現(xiàn)建表報“table xxx already exists”錯誤，但DB文件中并沒有該表。后面才發(fā)現(xiàn)這個是SQLite在實現(xiàn)過程中的一個bug，而這

問題

? ? ?我們在生產環(huán)境中使用SQLite時中發(fā)現(xiàn)建表報“table xxx already exists”錯誤，但DB文件中并沒有該表。后面才發(fā)現(xiàn)這個是SQLite在實現(xiàn)過程中的一個bug，而這個bug與數(shù)據(jù)字典的一致性相關，下面這篇文章主要討論SQLite的緩存機制，以及緩存一致性實現(xiàn)的策略，希望對大家了解SQLite緩存機制有一定的幫助。

緩存

? ? ??SQLite中緩存主要包括兩方面，數(shù)據(jù)字典緩存和數(shù)據(jù)頁緩存。SQLite本身是一個文件數(shù)據(jù)庫，所有的數(shù)據(jù)都在一個DB文件中，文件以塊(page)的形式存放，默認情況下每個page是1024個字節(jié)。為了避免每次訪問都產生磁盤IO，針對數(shù)據(jù)塊在SQLite內部實現(xiàn)了一層緩存
pagecache，pagecache的作用就是緩存頁數(shù)據(jù)。在SQLite內部，除了用戶數(shù)據(jù)，還有一部分內容是元數(shù)據(jù)信息，包括表，視圖，索引和觸發(fā)器等，這部分元數(shù)據(jù)信息在數(shù)據(jù)庫領域一般稱為數(shù)據(jù)字典，這部分信息也存在DB文件中。由于每次執(zhí)行語句時，都需要數(shù)據(jù)字典進行語義分析和執(zhí)行計劃優(yōu)化(表是否存在，列是否存在，是否有索引可用，是否存在觸發(fā)器等)，如果每次獲取這些信息時，都需要從DB文件中獲取，則非常影響性能。你可能會說，不是已經有pagecache了嗎？對的，數(shù)據(jù)字典的內容也緩存在pagecahce中，但是，要知道page中的數(shù)據(jù)都是二進制的，需要對內容進行解析產生結構化數(shù)據(jù)才能使用。為此，為了避免分析語句時，頻繁解析獲取數(shù)據(jù)字典，將解析好的數(shù)據(jù)進行緩存，以供多次使用，提高效率。

數(shù)據(jù)頁緩存一致性
? ? ?我們這里討論的數(shù)據(jù)頁緩存對應MySQL的概念就是BufferPool，當然其它數(shù)據(jù)庫Oracle，SQLServer都有類似的概念。
傳統(tǒng)PC上面的數(shù)據(jù)庫，都是在數(shù)據(jù)庫服務啟動時，根據(jù)參數(shù)設定值一次性分配特定大小的BufferPool。而SQLite采用懶分配策略，即“用多少則分配多少”，pagecache默認大小是2000個page，2000個page可以認為是一個緩存的上限。一次性分配的好處是，內存在物理是連續(xù)的，不容易產生內存碎片；而懶分配則更節(jié)約內存，由于SQLite一般用于端設備，采用懶分配方式可能更經濟實惠。SQLite的緩存分配策略采用LRU，保留最近訪問的page，淘汰最老的page。
? ? ? SQLite中每個數(shù)據(jù)庫連接對應一個DB句柄，應用通過DB句柄來操作數(shù)據(jù)庫，而pagecache實際上就作為一個成員掛在DB句柄中，因此每個DB句柄都有自己獨立的緩存，這點與傳統(tǒng)的PC數(shù)據(jù)庫不同(比如MySQL中，所有連接共享BufferPool)。既然每個DB句柄有獨立的緩存，那么緩存之間如何同步？比如有Connection1和Connection2兩個連接，Connection1首先從文件中讀取了page_A并加入到了緩存；隨后Connection2也從文件中讀取Page_A，并進行了更新；那么當Connection1再次讀取page_A時，Connection1如何知道自己緩存的page_A已經不是最新了，需要重新到DB文件中讀??？
SQLite為了處理這個問題，在DB的文件控制頭中存放的DB的版本信息，開始執(zhí)行SQL時會讀取DB的版本信息并緩存，如何發(fā)現(xiàn)本次的版本信息與之前的不同，則確認DB文件已經被修改，清理自身的緩存。每次事務提交時，都會調用pager_write_changecounter進行更新，具體位置在第一頁的第24個字節(jié)，占4個字節(jié)。

數(shù)據(jù)字典緩存一致性
? ? ?我們這里討論的數(shù)據(jù)字典對應MySQL的概念就是information_schema的系統(tǒng)表，字典緩存就是對系統(tǒng)表信息的結構化信息存儲。在SQLite中字典信息采用Hash表存儲，包括(tblHash,idxHash,trigHash和fkeyHash等)判斷一個對象是否存在的依據(jù)是Hash表中對象是否存在。openDatabase函數(shù)通過調用sqlite3Init對數(shù)據(jù)字典進行初始化，并設置標記。與數(shù)據(jù)頁緩存一樣，字典緩存也是每個DB句柄有單獨的一份數(shù)據(jù)，同樣的，SQLite文件頭中同樣存放了數(shù)據(jù)字典的版本信息，具體位置在第一頁的第40個字節(jié)，占4個字節(jié)。進行DDL操作時(CREATE,DROP,ALTER等)，會調用sqlite3ChangeCookie更新字典版本號(Schema cookie)。在Prepare階段分析語句時，若發(fā)現(xiàn)對象不存在，會觸發(fā)一次Schema cookie檢查，如果數(shù)據(jù)字典不是最新，則會調用sqlite3SchemaClear進行清理，并重新加載數(shù)據(jù)字典。另外，SQLite的數(shù)據(jù)字典表非常簡單，主要在sqlite_master表中，每個對象都是一行記錄，記錄中包含了表定義，加載字典時，實際就是將表定義語句分析一遍，通過調用sqlite3EndTable將對象加入Hash表，非常方便。

小結
? ? ?可以看到，無論數(shù)據(jù)頁緩存也好，數(shù)據(jù)字典緩存也好，SQLite都是采用一個版本號來控制版本信息，非常簡單實用，但缺點是粒度非常大。如果DB寫非常頻繁，那么每次讀基本都會導致物理IO，可能修改的是A表，訪問B表也需要將緩存清空。這里也可以解釋為什么頁緩存是“懶加載”模式，這樣清空緩存的代價也相對較小。對于數(shù)據(jù)字典緩存，粒度同樣很粗，每修改一個表，視圖，觸發(fā)器等對象，都會觸發(fā)數(shù)據(jù)字典版本更新。當然SQLite不會傻傻的每次執(zhí)行SQL時都去判斷自己的版本是否最新，只是在訪問對象時，對象不存在的情況才去檢查版本，這樣在一定程度上減少了加載的次數(shù)，但這樣也帶來了問題，下面回到問題本身。

回到問題
? ? ?前面我們拋出了一個SQLite的bug，這里來細說來龍去脈。假設有兩個DB句柄，分別稱為A和B。執(zhí)行如下序列： A：create table t(id int); B：DROP table if exists t; A: create table t(id int); 第二次A建表時會報“table t already exists”錯誤，而實際上表已經不存在了。這主要原因就是第3步A建表時發(fā)現(xiàn)表存在并沒有觸發(fā)去判斷數(shù)據(jù)字典是否最新的邏輯，導致誤報。復現(xiàn)該問題時要注意關閉sharecache,因為在sharecache模式下，所有的DB句柄共享一個緩存區(qū)。其實問題很簡單，但猜測復現(xiàn)問題還是花了一點精力。