當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]近來,一個關(guān)于美國和歐洲疫情數(shù)據(jù)的"神預(yù)測"的日更博客,在網(wǎng)上火了。 到底有多神呢?略舉二三,如下: - 3月27日起的連續(xù)10天里,該博客對美國感染人數(shù)的預(yù)測準(zhǔn)確率都在90%以上,其中在4月4日準(zhǔn)

近來,一個關(guān)于美國和歐洲疫情數(shù)據(jù)的"神預(yù)測"的日更博客,在網(wǎng)上火了。

到底有多神呢?略舉二三,如下:

- 3月27日起的連續(xù)10天里,該博客對美國感染人數(shù)的預(yù)測準(zhǔn)確率都在90%以上,其中在4月4日準(zhǔn)確率接近100%(預(yù)測為276727,實際為276931)。

- 3月31日,該博客預(yù)測美國疫情將在8-10天內(nèi)當(dāng)檢測人數(shù)超過200萬的時候出現(xiàn)斷崖式下跌;7天之后,也就是4月6日,美國疫情數(shù)據(jù)出現(xiàn)斷崖式下跌,增幅從12.43%降為8.13%—;—;這篇文章引起了巨大反響,閱讀量超過134萬。

3月27日以來,該博客對歐洲感染人數(shù)的每日預(yù)測平均準(zhǔn)確率達到97%,其中在4月份的前五天,預(yù)測準(zhǔn)確率接近100%。


李志斌對美國感染人數(shù)的預(yù)測(樂觀),準(zhǔn)確率高達90%

對此,有網(wǎng)友評論稱:大神,病毒都聽你的,絕了。

要知道,新冠肺炎疫情的爆發(fā)是一個涉及到政治、經(jīng)濟、地理等諸多復(fù)雜因素的全球性重大公共事件,對具體人數(shù)的預(yù)測聽起來就像是天方夜譚,準(zhǔn)確率更是一門玄學(xué)—;—;所以,能夠?qū)崿F(xiàn)上述的預(yù)測成績,這個博客背后的博主堪稱是當(dāng)代"神算子"了。

那么,這位"神算子"是怎么煉成的?

清華大學(xué)畢業(yè)+8年市場預(yù)測經(jīng)驗

這個博客背后的博主,也就是"神算子"本人,名為李志斌。

李志斌,1980到1985年就讀于清華大學(xué)計算機系,1985到1994年,他就讀并就職于中科院,三十歲擔(dān)任副研究員、產(chǎn)品部主任、所長助理,1994年移居新西蘭,后定居香港至今,現(xiàn)任香港致佳物流軟件有限公司、香港易經(jīng)科技有限公司總經(jīng)理。


李志斌博客截圖

在李志斌所在的這兩家公司中,前者的主營業(yè)務(wù)是物流系統(tǒng)開發(fā)(Logistics Systems);后者有香港中文大學(xué)背景,主要業(yè)務(wù)是市場需求預(yù)測(Market Demand Forecast),也就是為企業(yè)提供在未來3到6個月內(nèi)特定區(qū)域的產(chǎn)品需求、價格波動等方面的數(shù)據(jù)分析和預(yù)測。

李志斌表示,他從2012年開始進入數(shù)據(jù)分析和預(yù)測領(lǐng)域,由于易經(jīng)公司的香港中文大學(xué)背景,李志斌也從教授們那里耳濡目染學(xué)了不少東西。

另外,從技術(shù)層面來說,李志斌在清華大學(xué)計算機系的學(xué)習(xí)經(jīng)歷,也讓他在軟件建模、大數(shù)據(jù)分析等方面已經(jīng)形成一個完備的知識體系;同時,清華大學(xué)的理工科學(xué)風(fēng)和背景,也讓他更加重數(shù)據(jù)、重證據(jù)、重例舉,而不是重結(jié)論。

所有這些加起來,讓李志斌對"數(shù)據(jù)"非常敏感。

去年底今年初,武漢開始報告病例,香港也出現(xiàn)疑似新冠病毒患者,這讓長期身在香港的李志斌頗為警惕;到了2020年1月7日,香港特別行政區(qū)政府宣布新冠肺炎為法定傳染病,并開始向公眾通報疫情數(shù)據(jù),由此,李志斌開始了對新冠肺炎相關(guān)數(shù)據(jù)的追蹤。

從那時開始,李志斌每天早上起來進行集中數(shù)據(jù)采集,一開始只是武漢、湖北、香港的數(shù)據(jù),后來是內(nèi)地其他地區(qū)數(shù)據(jù),到了1月下旬,開始收集海外數(shù)據(jù),并整理成Excel表,同時開始利用自己的專業(yè)知識進行數(shù)據(jù)建模,并結(jié)合新聞中的數(shù)據(jù)對官方通報數(shù)據(jù)進行分析和判斷。

最初,李志斌只是在清華的同學(xué)群里分享數(shù)據(jù)和觀點,后來也每天花出30分鐘的時間來博文,并發(fā)表在新浪博客上。如今,這已經(jīng)形成了每天的習(xí)慣。

當(dāng)然,對于李志斌而言,除了對常規(guī)的數(shù)據(jù)進行收集、整理和分析之外,他也在不斷結(jié)合自己的專業(yè)知識來構(gòu)建一個數(shù)據(jù)模型,并且不斷對這個模型進行參數(shù)補充和驗證,使之達到預(yù)期中的效果。

到了3月27日,李志斌在數(shù)據(jù)模型已經(jīng)趨于穩(wěn)定的基礎(chǔ)上,第一次給出了針對美國感染情況的預(yù)測數(shù)據(jù);3月28日,他又給出了針對歐洲感染情況的預(yù)測數(shù)據(jù)。


李志斌對歐洲感染人數(shù)的預(yù)測,平均準(zhǔn)確率高達97%

在他的預(yù)測中,不僅僅包含感染病例數(shù)量,還包括感染增速、峰值時間、總感染人數(shù)、總死亡人數(shù)、死亡率等數(shù)據(jù)—;—;當(dāng)然,感染人數(shù)是他用來衡量預(yù)測準(zhǔn)確率的最為重要的指標(biāo)。

就連李志斌自己都沒有想到,自己的預(yù)測數(shù)據(jù)會那么準(zhǔn)。

但是李志斌強調(diào),沒有人可以100%準(zhǔn)確預(yù)測未來,一定要滾動預(yù)測。

他表示: “預(yù)測是一個動態(tài)過程,因為好多即時措施、事件等突發(fā)因素,是無法預(yù)測的,這個時候需要把這些突發(fā)事件和決定等因素變成對參數(shù)的調(diào)整,反饋到預(yù)測模型中,使之運行更加準(zhǔn)確。我的預(yù)測模型、預(yù)測參數(shù)也在不斷完善過程中?!?/strong>

再好的軟件也不能100%預(yù)測準(zhǔn)確

李志斌的預(yù)測,離不開兩個核心要素:數(shù)據(jù),和預(yù)測模型。

首先是數(shù)據(jù)的可信度問題。在采訪中,李志斌表示,自己從1月份開始每天收集數(shù)據(jù),一開始只有武漢和香港有數(shù)據(jù),一直到現(xiàn)在,每天收集上百個國家和地區(qū)的數(shù)據(jù)。

李志斌強調(diào),在數(shù)據(jù)收集和分析的過程中,一定需要甄別數(shù)據(jù)沖突(Data Conflicting)的出現(xiàn);尤其是在官方通報的數(shù)據(jù)量比較大的情況下,會用好多方法包括新聞數(shù)據(jù)去檢查不同地區(qū)的數(shù)據(jù)之間可能存在的數(shù)據(jù)沖突,數(shù)據(jù)沖突點越多,數(shù)據(jù)的可信度越低。

同時,在判斷數(shù)據(jù)真實性的過程中,要看數(shù)據(jù)發(fā)布的速度;數(shù)據(jù)發(fā)布頻率越高,那么可信度就會更高一些—;—;而南亞、東南亞地區(qū)發(fā)布的數(shù)據(jù)比較少、比較慢,可信度就會打折扣。


來自美國CDC官網(wǎng)的疫情情況

另外,在對數(shù)據(jù)的可信度進行判斷時,還可以借用新聞數(shù)據(jù)來做對比。李志斌告訴雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)),比如說,醫(yī)生和病人之間的比例是比較穩(wěn)定的,那就可以用新聞中報道的醫(yī)療人員數(shù)量,來反推病人數(shù)量。

他表示,其實,所有的數(shù)據(jù)都可能存在一些人為的誤差或者統(tǒng)計誤差,沒有任何地區(qū)的可信度是百分之百;但是相對來說,美國的數(shù)據(jù)沖突比較少,在可信度上高一些,歐洲的數(shù)據(jù)可信度次于美國,因為西歐與東歐之間的不平衡,所以會取平均值。但印度、東南亞、日本等地區(qū)的數(shù)據(jù)就似乎存在一些問題,數(shù)據(jù)發(fā)布慢、數(shù)據(jù)沖突點較多,影響了數(shù)據(jù)可信度的設(shè)置。

到二月底,在之前以國內(nèi)數(shù)據(jù)為基礎(chǔ)建模、驗證的基礎(chǔ)上,李志斌開始對美國、歐洲兩個地區(qū)進行疫情數(shù)據(jù)預(yù)測。于是,在數(shù)據(jù)的基礎(chǔ)之上,李志斌打造了一個預(yù)測模型—;—;實際上,這是一個極為復(fù)雜的模型,加起來有上百個參數(shù),其中重要的參數(shù)有二三十個,分為以下三類:

第一類是疫情參數(shù)—;—;不同地區(qū)/國家/城市確診人數(shù)、人口、每日新增確診人數(shù)、疑似人數(shù)、每日檢測人數(shù)、死亡人數(shù)、治愈人數(shù)(含自愈人數(shù))、在診人數(shù)、入院人數(shù)(重癥人數(shù))。

第二類參數(shù)與地區(qū)/城市/國家特征相關(guān)—;—;城市類型(古城、現(xiàn)代城市、鄉(xiāng)村)、人口密度、氣溫、天氣(大雨、陰雨、有霧、天晴等)、城市60歲以上老年人口比例、城市平均年齡、城市建設(shè)情況(主要是下水道的狀況)。

第三類參數(shù)是關(guān)于資源和管治能力—;—;醫(yī)療資源、病床數(shù)量、社會組織能力、信息透明度、管理方式等等。

李志斌表示,在實際的操作過程中,一般是先用Excel收集數(shù)據(jù),然后導(dǎo)入到后臺數(shù)據(jù)庫中,在用自己開發(fā)的軟件模型(里面包含了算法)來得出三個結(jié)論,最后自己會再人為地就結(jié)果進行判斷—;—;他強調(diào),有很多參數(shù)是不能量化的,比如說社會情緒;所以需要人為參與。

他還表示:再好的軟件也不能百分之百預(yù)測準(zhǔn)確。

當(dāng)大船和小船同時遇見冰山

畢業(yè)于清華大學(xué)的李志斌,有著超越數(shù)據(jù)分析之外的超前洞見和思維。

比如說,在建模過程中,李志斌是從國內(nèi)的數(shù)據(jù)開始的,這些數(shù)據(jù)不僅對李志斌的建模過程產(chǎn)生了重要影響,也讓他得出了一些觀察。于是,武漢封城前一天,他就在自己所在的"清華80同學(xué)群"里和同學(xué)們分享了兩個想法:

一是武漢應(yīng)當(dāng)立即封城,因為數(shù)據(jù)上升太嚇人;

二是在湖北尤其是武漢地區(qū)快速建立二三十個網(wǎng)格式野戰(zhàn)醫(yī)院,作為隔離救治中心,所謂野戰(zhàn)醫(yī)院,也就是后來的方艙醫(yī)院,因為疫情發(fā)展太猛,隔離病人是比治療更為關(guān)鍵的防控措施。

這些想法在同學(xué)群里引起了很多討論,當(dāng)然也有質(zhì)疑和反對,但更多的是同學(xué)們的積極參與,并提出了好多更好的想法和建議,獲益良多。后來的事實證明,這些想法都是中肯的,并且也被官方后續(xù)采取的措施所印證—;—;其中關(guān)于野戰(zhàn)醫(yī)院等想法更是超前了兩周。

除了上述建議,李志斌還在數(shù)據(jù)分析和模型構(gòu)建的過程中發(fā)現(xiàn),成為疫情爆發(fā)點的城市往往具備幾個特征:

老城區(qū);

氣候潮濕;

氣溫5-15度;

下水系統(tǒng)老化;

老年人比例高。

值得一提的是,在不同國家的疫情爆發(fā)城市,如中國武漢、韓國大邱、意大利米蘭、伊朗德黑蘭、美國紐約等,都大致符合這些特征。

對于這些特征的歸因,李志斌強調(diào),其中夾雜了個人的主觀合理猜測,但也經(jīng)過一系列的結(jié)果驗證,最終才體現(xiàn)在預(yù)測結(jié)果中。

他還表示,實際上,在參數(shù)中,還涉及到社會組織方式、管理模式、社會信息透明度等問題,所以他在預(yù)測中也會把結(jié)果設(shè)定為悲觀或樂觀。

如果按照李志斌在在4月4日給出的悲觀預(yù)測結(jié)果,他對美國感染人數(shù)的總體預(yù)測準(zhǔn)確率高達96%。


李志斌對美國感染人數(shù)的預(yù)測(悲觀),準(zhǔn)確率高達96%

不過,在專訪中,盡管有人為參與,但李志斌還是強調(diào)了數(shù)據(jù)在決策中的絕對地位。他表示,即使是拋開疫情不談,在一個日常的決策過程中,數(shù)據(jù)的重要性可以說是百分之百的;這些數(shù)據(jù)不僅僅要真實,而且要全面,還要透明,即使在后續(xù)過程中有人的參與,也是要基于這些數(shù)據(jù)判斷而來的—;—;數(shù)據(jù),正是決策的基礎(chǔ)。

那么,基于數(shù)據(jù)的決策,有多大的覆蓋面呢?

李志斌認(rèn)為,即使是新冠肺炎疫情這樣的頗具偶然性、又包含政治、經(jīng)濟等復(fù)雜社會因素的群體性公共事件,也是可以預(yù)測的。

他表示,類似于傳染病的情況,它的發(fā)展存在著一種特定的模式(Pattern),偶然之中有規(guī)律在,我們也許無法掌握100%準(zhǔn)確的規(guī)律,但是在一定的規(guī)律占比下,我們依然可以做出一些判斷和決策—;—;當(dāng)然前提是巨大的有效數(shù)據(jù)量。

由此,李志斌還談到了一個有趣的比喻:

一只大船和一只小船,在突然遇到冰山時,它們勢必要拐彎;但相對來說,大船的結(jié)局顯然更具有可預(yù)測性。小船一下子就改過來了,但大船的體量太大,有一個慣性,因此它有更大的可能性撞上冰山—;—;這個慣性就是規(guī)律,而船的體量本身,就是數(shù)據(jù)量。

數(shù)據(jù)量越大、數(shù)據(jù)越準(zhǔn)確、相關(guān)信息越透明,這種群體性事件發(fā)生的時候就越容易預(yù)測、且預(yù)測越準(zhǔn)確—;—;李志斌最后如是說。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉