LINUX 系統(tǒng)頻繁死機(jī)怎么辦?
最近,該公司的ERP系統(tǒng)在使用一段時間后經(jīng)常無法連接。 用戶投訴很大。 畢竟,找到該錯誤花了很長時間。 今天,我將與您分享這個過程。
故障描述
ERP系統(tǒng)是我們公司的重點核心業(yè)務(wù)系統(tǒng),使用的人也特別之多。最近老是有用戶報告系統(tǒng)無法連接以及在系統(tǒng)的用戶直接掉線。但可以ping 通。經(jīng)后臺top查詢,load在100多以上。由此可知系統(tǒng)的負(fù)載非常之高,系統(tǒng)無法響應(yīng)用戶的連接請求?;蛘呦到y(tǒng)響應(yīng)該超時。從而導(dǎo)致無法提供連接。
故障排查過程
發(fā)現(xiàn)load上升,第一感覺就是系統(tǒng)的設(shè)置或者系統(tǒng)程序沒有寫好。從而導(dǎo)致服務(wù)器卡死。初步的思路就是從軟件開始,第一步就是對最新上線的程序,請各程序員進(jìn)行自檢。結(jié)果無法找到故障點。第二步清查應(yīng)用系統(tǒng)的部分系統(tǒng)腳本。請原廠商進(jìn)行了自檢,也沒有發(fā)現(xiàn)問題點。進(jìn)入系統(tǒng)查日志,也沒有發(fā)現(xiàn)軟件和硬件的問題點。接下來就是懷疑硬件的問題。通過觀察法,服務(wù)器硬件都沒有報警信息。至此,完全陷入了死循環(huán)。故障依舊,重啟服務(wù)器幾分鐘之后故障又發(fā)生。之前供應(yīng)商有提醒過,在遠(yuǎn)程登錄的進(jìn)程中老是會被卡住。問我們的硬盤是不是有問題。但我們觀察了好久都沒有看到硬盤有警報信息。面板沒有光黃燈或紅燈。在提醒了幾次之后,我們還是進(jìn)入 RAID卡進(jìn)行查看。發(fā)現(xiàn)有一個硬盤顯示是黃色。與其他硬盤的顏色不一樣。初步估計就是這一顆硬盤的問題。然后進(jìn)行了硬盤更換。待RAID重建完成之后。觀察load恢復(fù)正常。
結(jié)論
這個是非常詭異的一個故障。也是很值得大家參與的案例。有一些東西系統(tǒng)會欺騙我們。如果單是靠看到的,用常規(guī)性的思維去找故障點。我估計沒有辦法一下子找到問題點。會影響到業(yè)務(wù)的運(yùn)作。另外,還有一點非常的重要,我們這一臺服務(wù)器是舊服務(wù)器。買了有七八年了。更換的硬盤買的是拆機(jī)品。這一些故障就是拆機(jī)品造成的。切記小心拆機(jī)品。