最近,該公司的ERP系統(tǒng)在使用一段時間后經(jīng)常無法連接。 用戶投訴很大。 畢竟,找到該錯誤花了很長時間。 今天,我將與您分享這個過程。
故障描述
ERP系統(tǒng)是我們公司的重點核心業(yè)務系統(tǒng),使用的人也特別之多。最近老是有用戶報告系統(tǒng)無法連接以及在系統(tǒng)的用戶直接掉線。但可以ping 通。經(jīng)后臺top查詢,load在100多以上。由此可知系統(tǒng)的負載非常之高,系統(tǒng)無法響應用戶的連接請求?;蛘呦到y(tǒng)響應該超時。從而導致無法提供連接。
故障排查過程
發(fā)現(xiàn)load上升,第一感覺就是系統(tǒng)的設置或者系統(tǒng)程序沒有寫好。從而導致服務器卡死。初步的思路就是從軟件開始,第一步就是對最新上線的程序,請各程序員進行自檢。結果無法找到故障點。第二步清查應用系統(tǒng)的部分系統(tǒng)腳本。請原廠商進行了自檢,也沒有發(fā)現(xiàn)問題點。進入系統(tǒng)查日志,也沒有發(fā)現(xiàn)軟件和硬件的問題點。接下來就是懷疑硬件的問題。通過觀察法,服務器硬件都沒有報警信息。至此,完全陷入了死循環(huán)。故障依舊,重啟服務器幾分鐘之后故障又發(fā)生。之前供應商有提醒過,在遠程登錄的進程中老是會被卡住。問我們的硬盤是不是有問題。但我們觀察了好久都沒有看到硬盤有警報信息。面板沒有光黃燈或紅燈。在提醒了幾次之后,我們還是進入 RAID卡進行查看。發(fā)現(xiàn)有一個硬盤顯示是黃色。與其他硬盤的顏色不一樣。初步估計就是這一顆硬盤的問題。然后進行了硬盤更換。待RAID重建完成之后。觀察load恢復正常。
結論
這個是非常詭異的一個故障。也是很值得大家參與的案例。有一些東西系統(tǒng)會欺騙我們。如果單是靠看到的,用常規(guī)性的思維去找故障點。我估計沒有辦法一下子找到問題點。會影響到業(yè)務的運作。另外,還有一點非常的重要,我們這一臺服務器是舊服務器。買了有七八年了。更換的硬盤買的是拆機品。這一些故障就是拆機品造成的。切記小心拆機品。