攜手數(shù)據(jù)分析,構(gòu)筑智能化的疫情預測預警系統(tǒng)
疫情預測預警是有效應(yīng)對傳染病重要的手段,傳染病預測預警是通過建立統(tǒng)計分析和數(shù)學模型的建立,探討傳染病發(fā)生、發(fā)展和流行的規(guī)律,一方面可根據(jù)預測的數(shù)據(jù),有的放矢地提出和采取預防控制措施,并通過跟蹤印證來評價預防措施的效果,能使預防控制工作更具針對性、預見性和主動性,從而達到防止暴發(fā)或流行的目的;另一方面可將實時疫情信息與同期歷史資料比較,對于發(fā)病率超出所確定可信限范圍者作為異常來處理,以此發(fā)出暴發(fā)或流行的警示,從而實現(xiàn)疾病的早期預警。
用于傳染病預測預警的方法分為定性預測和定量預測,定性預測主要包括流行控制圖法、比數(shù)圖法、模糊數(shù)學理論以及動態(tài)圖形法等?,F(xiàn)在應(yīng)用越來越廣泛的方法之一是動態(tài)圖形法。
動態(tài)圖形是一種隨著計算機技術(shù)的成熟而快速發(fā)展起來的圖形基礎(chǔ),它既繼承了傳統(tǒng)統(tǒng)計圖形的所有要素和優(yōu)點,又增添了更加豐富的表達形式(如拖拉點拽式的操作界面、動畫電影般的顯示效果等),從而能夠靈活自如地從更多維度地展現(xiàn)數(shù)據(jù)背后的內(nèi)在規(guī)律和發(fā)展趨勢。使用門檻低,易于理解,統(tǒng)計溝通的效果更佳。
而定量預測主要有灰色動態(tài)模型、回歸預測模型、逐步判別模型、多元回歸模型以及時間序列模型等。目前應(yīng)用比較成熟的方法之一是時間序列分析模型。
時間序列分析是一種處理時間維度數(shù)據(jù)的統(tǒng)計方法。該方法基于隨機過程理論和數(shù)理統(tǒng)計學方法,研究隨機數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題。它克服了因果回歸分析法中預測對象的影響因素難以掌握和數(shù)據(jù)資料不易得到的難題,利用任何事物的發(fā)展都具有一定慣性的原理,建立時間序列模型,以達到預測未來的目的。過程簡便、經(jīng)濟、適用,短期預測精度較高。
下面基于專業(yè)統(tǒng)計分析軟件JMP,分別用一些實際案例進行說明。
案例一——禽流感全球疫情監(jiān)控
禽流感常指人感染禽流感,是由禽流感病毒引起的人類疾病。由于禽流感病毒的血凝素結(jié)構(gòu)等特點,當病毒在復制過程中發(fā)生基因重配,致使結(jié)構(gòu)發(fā)生改變,獲得感染人的能力,才可能造成人感染禽流感疾病的發(fā)生。至今發(fā)現(xiàn)能直接感染人的禽流感病毒亞型有:H5N1、H7N1、H7N2、H7N3、H7N7、H9N2和H7N9亞型。其中高致病性的禽流感,不僅會重創(chuàng)家禽養(yǎng)殖業(yè),而且會造成人類社會的巨大傷亡。
利用聯(lián)合國衛(wèi)生組織公布的數(shù)據(jù),對2009年5月起首次引起全球關(guān)注的禽流感疫情進行早期的定性分析與預測,發(fā)現(xiàn)了很多有意義的規(guī)律和特征。圖1就是運用JMP軟件中的“氣泡圖”平臺繪制而成的動態(tài)圖形。根據(jù)氣泡的大小、顏色和運動軌跡,我們不難發(fā)現(xiàn)墨西哥和美國是當時疫情最嚴重的兩個國家,而它們的特點又有所不同:墨西哥的病例數(shù)量不是最多,但死亡率很高;美國的病例數(shù)量最多,但死亡率相對較低。
此外,再結(jié)合地理信息系統(tǒng)的內(nèi)容,我們可以更廣泛地了解此次禽流感疫情在全球范圍內(nèi)的變化規(guī)律。圖2就是進一步運用JMP軟件中的“地圖”功能繪制而成的動態(tài)圖形。我們可以輕而易舉地跨越時空的局限,將世界各地的禽流感疫情一覽無遺。
案例二——國內(nèi)某省丙肝發(fā)病的預測
丙肝,全名為丙型病毒性肝炎。雖然丙肝的“知名度”不如乙肝,但近幾年丙肝的發(fā)病率逐年上升。丙肝不像乙肝癥狀明顯,因而多數(shù)丙肝患者本身并不知情。但是,在未來20年內(nèi)與HCV感染相關(guān)的死亡率(肝衰竭及肝細胞癌導致的死亡)將繼續(xù)增加,對患者的健康和生命危害極大,已成為我國嚴重的社會和公共衛(wèi)生問題。
利用某省2005-2013年的丙肝報告發(fā)生數(shù)預測該省2014年的丙肝情況。圖3中展示了108個月的該省丙肝報告發(fā)生數(shù)。
觀察上圖發(fā)現(xiàn),該數(shù)據(jù)具備趨勢性、周期性和隨機性的特點,適合用時間序列分析中的ARIMA(p,d,q)模型來進行分析預測。但是,如何確定其中的參數(shù)p,d,q呢?這需要具備一定的統(tǒng)計學背景知識,花費相當?shù)奶剿髋c嘗試時間。幸運的是,在JMP軟件的智能化分析幫助下,這一切變得很簡單,因為可以在極短的時間內(nèi)對大量的候選模型進行地毯式搜索,并根據(jù)其擬合效果的優(yōu)劣進行排序,最后甄選出一個預測誤差最小的模型供我們參考使用。本例中最終確定的參數(shù)為p=1,d=1,q=1,因此對應(yīng)的ARIMA模型為ARIMA(1,1,1)。用該模型對源數(shù)據(jù)進行擬合及預測,如圖4所示,該模型曲線的擬合效果還是不錯的。
相信大家從這些案例中可以感受到:工欲善其事,必先利其器。借助于現(xiàn)代化的數(shù)據(jù)分析利器JMP,無論是定性預測,還是定量預測,都能夠簡便高效地完成。未來這些方法和技術(shù)在傳染病預測預警方面還會有更好的應(yīng)用前景。