當(dāng)前位置:首頁 > 嵌入式 > 嵌入式軟件
[導(dǎo)讀]本周工作中,我花了整整一周的時間來嘗試調(diào)試一個段錯誤。我以前從來沒有這樣做過,我花了很長時間才弄清楚其中涉及的一些基本事情(獲得核心轉(zhuǎn)儲、找到導(dǎo)致段錯誤的行號)。于是便有了這篇博客來解釋如何做那些事情! 在看完這篇博客后,你應(yīng)該知道如何從“哦,我的程序出現(xiàn)段錯誤,但我不知道正在發(fā)生什么”到“我知道它出現(xiàn)段錯誤時的堆棧、行號了! ”。

本周工作中,我花了整整一周的時間來嘗試調(diào)試一個段錯誤。我以前從來沒有這樣做過,我花了很長時間才弄清楚其中涉及的一些基本事情(獲得核心轉(zhuǎn)儲、找到導(dǎo)致段錯誤的行號)。于是便有了這篇博客來解釋如何做那些事情!

在看完這篇博客后,你應(yīng)該知道如何從“哦,我的程序出現(xiàn)段錯誤,但我不知道正在發(fā)生什么”到“我知道它出現(xiàn)段錯誤時的堆棧、行號了! ”。

什么是段錯誤?

“段錯誤segmentation fault”是指你的程序嘗試訪問不允許訪問的內(nèi)存地址的情況。這可能是由于:

試圖解引用空指針(你不被允許訪問內(nèi)存地址 0);

試圖解引用其他一些不在你內(nèi)存(LCTT 譯注:指不在合法的內(nèi)存地址區(qū)間內(nèi))中的指針;

一個已被破壞并且指向錯誤的地方的 C++ 虛表指針C++ vtable pointer,這導(dǎo)致程序嘗試執(zhí)行沒有執(zhí)行權(quán)限的內(nèi)存中的指令;

其他一些我不明白的事情,比如我認(rèn)為訪問未對齊的內(nèi)存地址也可能會導(dǎo)致段錯誤(LCTT 譯注:在要求自然邊界對齊的體系結(jié)構(gòu),如 MIPS、ARM 中更容易因非對齊訪問產(chǎn)生段錯誤)。

這個“C++ 虛表指針”是我的程序發(fā)生段錯誤的情況。我可能會在未來的博客中解釋這個,因為我最初并不知道任何關(guān)于 C++ 的知識,并且這種虛表查找導(dǎo)致程序段錯誤的情況也是我所不了解的。

但是!這篇博客后不是關(guān)于 C++ 問題的。讓我們談?wù)摰幕镜臇|西,比如,我們?nèi)绾蔚玫揭粋€核心轉(zhuǎn)儲?

步驟1:運行 valgrind

我發(fā)現(xiàn)找出為什么我的程序出現(xiàn)段錯誤的最簡單的方式是使用 valgrind:我運行

valgrind -v your-program

這給了我一個故障時的堆棧調(diào)用序列。 簡潔!

但我想也希望做一個更深入調(diào)查,并找出些 valgrind 沒告訴我的信息! 所以我想獲得一個核心轉(zhuǎn)儲并探索它。

如何獲得一個核心轉(zhuǎn)儲

核心轉(zhuǎn)儲core dump是您的程序內(nèi)存的一個副本,并且當(dāng)您試圖調(diào)試您的有問題的程序哪里出錯的時候它非常有用。

當(dāng)您的程序出現(xiàn)段錯誤,Linux 的內(nèi)核有時會把一個核心轉(zhuǎn)儲寫到磁盤。 當(dāng)我最初試圖獲得一個核心轉(zhuǎn)儲時,我很長一段時間非常沮喪,因為 - Linux 沒有生成核心轉(zhuǎn)儲!我的核心轉(zhuǎn)儲在哪里?

這就是我最終做的事情:

在啟動我的程序之前運行 ulimit -c unlimited

運行 sudo sysctl -w kernel.core_pattern=/tmp/core-%e.%p.%h.%t

ulimit:設(shè)置核心轉(zhuǎn)儲的最大尺寸

ulimit -c 設(shè)置核心轉(zhuǎn)儲的最大尺寸。 它往往設(shè)置為 0,這意味著內(nèi)核根本不會寫核心轉(zhuǎn)儲。 它以千字節(jié)為單位。 ulimit 是按每個進程分別設(shè)置的 —— 你可以通過運行 cat /proc/PID/limit 看到一個進程的各種資源限制。

例如這些是我的系統(tǒng)上一個隨便一個 Firefox 進程的資源限制:

$ cat /proc/6309/limits

Limit Soft Limit Hard Limit Units

Max cpu time unlimited unlimited seconds

Max file size unlimited unlimited bytes

Max data size unlimited unlimited bytes

Max stack size 8388608 unlimited bytes

Max core file size 0 unlimited bytes

Max resident set unlimited unlimited bytes

Max processes 30571 30571 processes

Max open files 1024 1048576 files

Max locked memory 65536 65536 bytes

Max address space unlimited unlimited bytes

Max file locks unlimited unlimited locks

Max pending signals 30571 30571 signals

Max msgqueue size 819200 819200 bytes

Max nice priority 0 0

Max realtime priority 0 0

Max realtime timeout unlimited unlimited us

內(nèi)核在決定寫入多大的核心轉(zhuǎn)儲文件時使用軟限制soft limit(在這種情況下,max core file size = 0)。 您可以使用 shell 內(nèi)置命令 ulimit(ulimit -c unlimited) 將軟限制增加到硬限制hard limit。

kernel.core_pattern:核心轉(zhuǎn)儲保存在哪里

kernel.core_pattern 是一個內(nèi)核參數(shù),或者叫 “sysctl 設(shè)置”,它控制 Linux 內(nèi)核將核心轉(zhuǎn)儲文件寫到磁盤的哪里。

內(nèi)核參數(shù)是一種設(shè)定您的系統(tǒng)全局設(shè)置的方法。您可以通過運行 sysctl -a 得到一個包含每個內(nèi)核參數(shù)的列表,或使用 sysctl kernel.core_pattern 來專門查看 kernel.core_pattern設(shè)置。

所以 sysctl -w kernel.core_pattern=/tmp/core-%e.%p.%h.%t 將核心轉(zhuǎn)儲保存到目錄 /tmp下,并以 core 加上一系列能夠標(biāo)識(出故障的)進程的參數(shù)構(gòu)成的后綴為文件名。

如果你想知道這些形如 %e、%p 的參數(shù)都表示什么,請參考 man core。

有一點很重要,kernel.core_pattern 是一個全局設(shè)置 —— 修改它的時候最好小心一點,因為有可能其它系統(tǒng)功能依賴于把它被設(shè)置為一個特定的方式(才能正常工作)。

kernel.core_pattern 和 Ubuntu

默認(rèn)情況下在 ubuntu 系統(tǒng)中,kernel.core_pattern 被設(shè)置為下面的值:

$ sysctl kernel.core_pattern

kernel.core_pattern = |/usr/share/apport/apport %p %s %c %d %P

這引起了我的迷惑(這 apport 是干什么的,它對我的核心轉(zhuǎn)儲做了什么?)。以下關(guān)于這個我了解到的:

Ubuntu 使用一種叫做 apport 的系統(tǒng)來報告 apt 包有關(guān)的崩潰信息。

設(shè)定 kernel.core_pattern=|/usr/share/apport/apport %p %s %c %d %P 意味著核心轉(zhuǎn)儲將被通過管道送給 apport 程序。

apport 的日志保存在文件 /var/log/apport.log 中。

apport 默認(rèn)會忽略來自不屬于 Ubuntu 軟件包一部分的二進制文件的崩潰信息

我最終只是跳過了 apport,并把 kernel.core_pattern 重新設(shè)置為 sysctl -w kernel.core_pattern=/tmp/core-%e.%p.%h.%t,因為我在一臺開發(fā)機上,我不在乎 apport 是否工作,我也不想嘗試讓 apport 把我的核心轉(zhuǎn)儲留在磁盤上。

現(xiàn)在你有了核心轉(zhuǎn)儲,接下來干什么?

好的,現(xiàn)在我們了解了 ulimit 和 kernel.core_pattern ,并且實際上在磁盤的 /tmp 目錄中有了一個核心轉(zhuǎn)儲文件。太好了!接下來干什么?我們?nèi)匀徊恢涝摮绦驗槭裁磿霈F(xiàn)段錯誤!

下一步將使用 gdb 打開核心轉(zhuǎn)儲文件并獲取堆棧調(diào)用序列。

從 gdb 中得到堆棧調(diào)用序列

你可以像這樣用 gdb 打開一個核心轉(zhuǎn)儲文件:

$ gdb -c my_core_file

接下來,我們想知道程序崩潰時的堆棧是什么樣的。在 gdb 提示符下運行 bt 會給你一個調(diào)用序列backtrace。在我的例子里,gdb 沒有為二進制文件加載符號信息,所以這些函數(shù)名就像 “??????”。幸運的是,(我們通過)加載符號修復(fù)了它。

下面是如何加載調(diào)試符號。

symbol-file /path/to/my/binary

sharedlibrary

這從二進制文件及其引用的任何共享庫中加載符號。一旦我這樣做了,當(dāng)我執(zhí)行 bt 時,gdb 給了我一個帶有行號的漂亮的堆棧跟蹤!

如果你想它能工作,二進制文件應(yīng)該以帶有調(diào)試符號信息的方式被編譯。在試圖找出程序崩潰的原因時,堆棧跟蹤中的行號非常有幫助。:)

查看每個線程的堆棧

通過以下方式在 gdb 中獲取每個線程的調(diào)用棧!

thread apply all bt full

gdb + 核心轉(zhuǎn)儲 = 驚喜

如果你有一個帶調(diào)試符號的核心轉(zhuǎn)儲以及 gdb,那太棒了!您可以上下查看調(diào)用堆棧(LCTT 譯注:指跳進調(diào)用序列不同的函數(shù)中以便于查看局部變量),打印變量,并查看內(nèi)存來得知發(fā)生了什么。這是最好的。

如果您仍然正在基于 gdb 向?qū)砉ぷ魃希淮蛴〕鰲8櫯cbt也可以。 :)

ASAN

另一種搞清楚您的段錯誤的方法是使用 AddressSanitizer 選項編譯程序(“ASAN”,即 $CC -fsanitize=address)然后運行它。 本文中我不準(zhǔn)備討論那個,因為本文已經(jīng)相當(dāng)長了,并且在我的例子中打開 ASAN 后段錯誤消失了,可能是因為 ASAN 使用了一個不同的內(nèi)存分配器(系統(tǒng)內(nèi)存分配器,而不是 tcmalloc)。

在未來如果我能讓 ASAN 工作,我可能會多寫點有關(guān)它的東西。(LCTT 譯注:這里指使用 ASAN 也能復(fù)現(xiàn)段錯誤)

從一個核心轉(zhuǎn)儲得到一個堆棧跟蹤真的很親切!

這個博客聽起來很多,當(dāng)我做這些的時候很困惑,但說真的,從一個段錯誤的程序中獲得一個堆棧調(diào)用序列不需要那么多步驟:

試試用 valgrind

如果那沒用,或者你想要拿到一個核心轉(zhuǎn)儲來調(diào)查:

確保二進制文件編譯時帶有調(diào)試符號信息;

正確的設(shè)置 ulimit 和 kernel.core_pattern;

運行程序;

一旦你用 gdb 調(diào)試核心轉(zhuǎn)儲了,加載符號并運行 bt;

嘗試找出發(fā)生了什么!

我可以使用 gdb 弄清楚有個 C++ 的虛表條目指向一些被破壞的內(nèi)存,這有點幫助,并且使我感覺好像更懂了 C++ 一點。也許有一天我們會更多地討論如何使用 gdb 來查找問題!

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉