當(dāng)前位置:首頁(yè) > 醫(yī)療電子 > 醫(yī)療電子
[導(dǎo)讀]一、健康云的興起隨著我國(guó)經(jīng)濟(jì)持續(xù)穩(wěn)定的發(fā)展和現(xiàn)代科技的日益進(jìn)步,越來(lái)越多的人們開(kāi)始重點(diǎn)關(guān)注自身健康。在滿(mǎn)足日常工作和生活的需求之外,規(guī)律的健身休閑活動(dòng)、年度體檢、健康飲食已經(jīng)成為越來(lái)越普遍的想象。與此

一、健康云的興起

隨著我國(guó)經(jīng)濟(jì)持續(xù)穩(wěn)定的發(fā)展和現(xiàn)代科技的日益進(jìn)步,越來(lái)越多的人們開(kāi)始重點(diǎn)關(guān)注自身健康。在滿(mǎn)足日常工作和生活的需求之外,規(guī)律的健身休閑活動(dòng)、年度體檢、健康飲食已經(jīng)成為越來(lái)越普遍的想象。與此同時(shí),隨著國(guó)家新醫(yī)改政策的頒布和實(shí)施,與健康直接相關(guān)的醫(yī)療行業(yè)也正在迅猛發(fā)展。這里重點(diǎn)介紹一下我國(guó)醫(yī)療行業(yè)IT解決方案市場(chǎng)呈現(xiàn)的發(fā)展趨勢(shì):

1、 漸增的多樣醫(yī)療數(shù)據(jù)源:醫(yī)療數(shù)據(jù)的生成和采集已經(jīng)不再僅局限于醫(yī)院這個(gè)單一環(huán)境。它還可以來(lái)自于體檢中心、社區(qū)/鄉(xiāng)鎮(zhèn)衛(wèi)生院、私人診所、實(shí)驗(yàn)室檢驗(yàn)中心、急救中心、家庭,隨著物聯(lián)網(wǎng)(IoT, Internet of Things)相關(guān)技術(shù)的發(fā)展,甚至可以說(shuō):個(gè)人醫(yī)療數(shù)據(jù)可以采自于任何適合的地方。

2、 醫(yī)療數(shù)據(jù)的高度集中化:區(qū)域醫(yī)療信息系統(tǒng)(RHIS, Regional Health Information System)將逐步取代現(xiàn)有的基于醫(yī)院的信息系統(tǒng)。并且,它將更廣泛的覆蓋一個(gè)特定區(qū)域內(nèi)的所有醫(yī)院、社區(qū)、急救中心、體檢中心、實(shí)驗(yàn)室檢驗(yàn)中心、社會(huì)保險(xiǎn)機(jī)構(gòu)等。居民個(gè)人來(lái)自各個(gè)數(shù)據(jù)源的全周期醫(yī)療數(shù)據(jù)將集中保存在統(tǒng)一的區(qū)域數(shù)據(jù)中心中。醫(yī)療數(shù)據(jù)將不再只是某家醫(yī)院獨(dú)享的資源,而是與整個(gè)區(qū)域中的所有醫(yī)療機(jī)構(gòu)共享,甚至可以與更上層的大區(qū)域級(jí)、國(guó)家級(jí)信息系統(tǒng)進(jìn)行數(shù)據(jù)交換。

3、 從醫(yī)療信息系統(tǒng)到醫(yī)療信息服務(wù):區(qū)域醫(yī)療信息系統(tǒng)的逐步建立將使先進(jìn)的醫(yī)療信息服務(wù)的設(shè)計(jì)和開(kāi)發(fā)變得更加便捷。例如:流行病分析、公共衛(wèi)生事件預(yù)測(cè)、臨床決策支持、慢性病管理、個(gè)性化的健康照護(hù)計(jì)劃、日常衛(wèi)生保健管理等。其原因是因?yàn)檫@些信息服務(wù)必須建立在數(shù)據(jù)集中化的基礎(chǔ)上。這些服務(wù)的受眾群體將是整個(gè)社會(huì)。

正是如上所述的發(fā)展趨勢(shì)使得“健康云(Healthcare Cloud)”的建立才會(huì)成為可能。試想一下:在不久的將來(lái),我們可以通過(guò)手機(jī)統(tǒng)一查詢(xún)?cè)诓煌t(yī)院的就診記錄、生化檢驗(yàn)結(jié)果、處方和收費(fèi)清單;慢性病患者在家中可以自測(cè)血壓、血糖等指標(biāo)并通過(guò)無(wú)線(xiàn)網(wǎng)絡(luò)上傳到區(qū)域醫(yī)療數(shù)據(jù)中心,醫(yī)生也可以遠(yuǎn)程分析患者自測(cè)數(shù)據(jù)判斷其病情發(fā)展;大量的知識(shí)和規(guī)則從海量數(shù)據(jù)中自動(dòng)提取出來(lái),并用來(lái)協(xié)助社區(qū)及基層衛(wèi)生機(jī)構(gòu)的初級(jí)醫(yī)生對(duì)患者作出準(zhǔn)確的診斷和用藥決策;各個(gè)社區(qū)居民的醫(yī)療數(shù)據(jù)將會(huì)自動(dòng)匯總,并進(jìn)行統(tǒng)計(jì)分析,用以進(jìn)行流行病、慢性病的自動(dòng)篩查、趨勢(shì)分析和爆發(fā)預(yù)警,為公共衛(wèi)生機(jī)構(gòu)制定防治干預(yù)計(jì)劃和行動(dòng)提供有力的依據(jù)和參考;患者的癥狀、生命體征、檢驗(yàn)檢測(cè)結(jié)果、醫(yī)療影像、診斷、處方、醫(yī)囑、手術(shù)、住院和賬單等全周期數(shù)據(jù)將會(huì)進(jìn)行全方位的跟蹤和分析,為新藥開(kāi)發(fā)、新治療方案的設(shè)計(jì)提供支持。上述這些事例都將是我們通過(guò)健康云可以逐步實(shí)現(xiàn)的。

當(dāng)然,健康云不是一天就可以建成的,這將是個(gè)階段性的工程。除了國(guó)家政策和地方支持等外圍因素之外,云計(jì)算和大數(shù)據(jù)技術(shù)將會(huì)起決定性作用。從構(gòu)建底層云基礎(chǔ)架構(gòu)、云存儲(chǔ)方案,到中層的云計(jì)算平臺(tái),最后到上層的云應(yīng)用服務(wù)設(shè)計(jì)和開(kāi)發(fā),至少需要3~5年的長(zhǎng)期規(guī)劃。其中,大數(shù)據(jù)分析部分更是縱向貫穿于云基礎(chǔ)架構(gòu)、云平臺(tái)和云服務(wù)三層,需要整體設(shè)計(jì)和逐步實(shí)施?;诂F(xiàn)有技術(shù)和需求,在本文中,我們暫且把健康云簡(jiǎn)化定義為:基于區(qū)域醫(yī)療信息系統(tǒng)的醫(yī)療信息服務(wù),并重點(diǎn)關(guān)注1~3年的市場(chǎng)需求。

二、大數(shù)據(jù)分析技術(shù)的發(fā)展

區(qū)域醫(yī)療信息系統(tǒng)中的醫(yī)療數(shù)據(jù)是典型的大數(shù)據(jù)。所謂的“大數(shù)據(jù)”并不只是數(shù)量上的“大”。簡(jiǎn)單套用一下大數(shù)據(jù)的4V(Volume,Velocity,Variety,Value)定義:

1、 Volume:區(qū)域醫(yī)療數(shù)據(jù)通常是來(lái)自于擁有上百萬(wàn)人口和上百家醫(yī)療機(jī)構(gòu)的區(qū)域,并且數(shù)據(jù)量持續(xù)增長(zhǎng)。按照醫(yī)療行業(yè)的相關(guān)規(guī)定,一個(gè)患者的數(shù)據(jù)通常需要保留50年以上。我們可以想象這是多么巨大的數(shù)據(jù)量。

2、 Velocity:醫(yī)療信息服務(wù)中可能包含大量在線(xiàn)或?qū)崟r(shí)數(shù)據(jù)分析處理的需求。例如:臨床決策支持中的診斷和用藥建議、流行病分析報(bào)表生成、健康指標(biāo)預(yù)警等。

3、 Variety:醫(yī)療數(shù)據(jù)通常會(huì)包含各種結(jié)構(gòu)化數(shù)據(jù)表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述文本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲(chǔ)形式。

4、 Value:醫(yī)療數(shù)據(jù)的價(jià)值不必多說(shuō),它不僅與我們個(gè)人生活息息相關(guān),更可用于國(guó)家乃至全球的疾病防控、新藥研發(fā)和頑疾攻克。

近年來(lái),在衛(wèi)生部的領(lǐng)導(dǎo)下和國(guó)家財(cái)政支出的支持下,絕大多數(shù)的三甲醫(yī)院和部分二級(jí)醫(yī)院已經(jīng)先后建立了先進(jìn)的數(shù)字化信息系統(tǒng)和電子健康檔案系統(tǒng)。但至今為止,大部分系統(tǒng)和數(shù)據(jù)仍然只限于內(nèi)部使用。據(jù)了解,2010年底,衛(wèi)生部完成了“十二五”衛(wèi)生信息化建設(shè)工程規(guī)劃編制工作,初步確定了我國(guó)衛(wèi)生信息化建設(shè)路線(xiàn)圖,簡(jiǎn)稱(chēng)“3521工程”,即建設(shè)國(guó)家級(jí)、省級(jí)和地市級(jí)三級(jí)衛(wèi)生信息平臺(tái),加強(qiáng)公共衛(wèi)生、醫(yī)療服務(wù)、新農(nóng)合、基本藥物制度、綜合管理5項(xiàng)業(yè)務(wù)應(yīng)用,建設(shè)健康檔案和電子病歷2個(gè)基礎(chǔ)數(shù)據(jù)庫(kù)和1個(gè)專(zhuān)用網(wǎng)絡(luò)建設(shè)。由此可看出,今后的幾年,隨著云計(jì)算技術(shù)的成熟和實(shí)用化,大規(guī)模區(qū)域醫(yī)療信息系統(tǒng)和大型數(shù)據(jù)中心的建立將逐步展開(kāi)。然而,隨著海量醫(yī)療數(shù)據(jù)被保存下來(lái),一個(gè)棘手的問(wèn)題出現(xiàn)了:我們?nèi)绾瓮ㄟ^(guò)高效的分析這些數(shù)據(jù)來(lái)提供有價(jià)值的服務(wù)?

大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁(yè)存檔、用戶(hù)點(diǎn)擊、商品信息、用戶(hù)關(guān)系等數(shù)據(jù)形成了持續(xù)增長(zhǎng)的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶(hù)體驗(yàn)、提高服務(wù)質(zhì)量和開(kāi)發(fā)新型應(yīng)用的知識(shí),而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識(shí)就基本決定了各大互聯(lián)網(wǎng)公司在激烈競(jìng)爭(zhēng)環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架,利用廉價(jià)的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。

利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略,這套經(jīng)濟(jì)實(shí)惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫(kù)方案相比,不僅沒(méi)有丟失性能,而且還贏(yíng)在了可擴(kuò)展性上。之前,我們?cè)谠O(shè)計(jì)一個(gè)數(shù)據(jù)中心解決方案的前期,就要考慮到方案實(shí)施后的可擴(kuò)展性。通常的方法是預(yù)估今后一段時(shí)期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量,加入多余的計(jì)算單元(CPU)和存儲(chǔ),以備不時(shí)只需。

這樣的方式直接導(dǎo)致了前期一次性投資的巨大,并且即使這樣也依然無(wú)法保證計(jì)算需求和存儲(chǔ)超出設(shè)計(jì)量時(shí)的系統(tǒng)性能。而一旦需要擴(kuò)容,問(wèn)題就會(huì)接踵而來(lái)。首先是商業(yè)并行數(shù)據(jù)庫(kù)通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具有近似的計(jì)算和存儲(chǔ)能力。而隨著硬件的更新,我們通常加入的新硬件都會(huì)強(qiáng)于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉,經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫(kù),其所能管理的數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個(gè)數(shù)量級(jí),這主要是由于架構(gòu)上的設(shè)計(jì)問(wèn)題,所以其可擴(kuò)展性必然有限。

而MapReduce+GFS框架,不受上述問(wèn)題的困擾。需要擴(kuò)容了,只需增加個(gè)機(jī)柜,加入適當(dāng)?shù)挠?jì)算單元和存儲(chǔ),集群系統(tǒng)會(huì)自動(dòng)分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運(yùn)行。如今,我們用得更多的是Google MapReduce的開(kāi)源實(shí)現(xiàn),即Hadoop。除了計(jì)算模型的發(fā)展,與此同時(shí),人們也在關(guān)注著數(shù)據(jù)存儲(chǔ)模型。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)由于其規(guī)范的設(shè)計(jì)、友好的查詢(xún)語(yǔ)言、高效的數(shù)據(jù)處理在線(xiàn)事務(wù)的能力,長(zhǎng)時(shí)間地占據(jù)了市場(chǎng)的主導(dǎo)地位。

然而,其嚴(yán)格的設(shè)計(jì)定式、為保證強(qiáng)一致性而放棄性能、可擴(kuò)展性差等問(wèn)題在大數(shù)據(jù)分析中被逐漸暴露。隨之而來(lái),NoSQL數(shù)據(jù)存儲(chǔ)模型開(kāi)始風(fēng)行。NoSQL,也有人理解為Not Only SQL,并不是一種特定的數(shù)據(jù)存儲(chǔ)模型,它是一類(lèi)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱(chēng)。其特點(diǎn)是:沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù),而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)庫(kù)、列存儲(chǔ)等。而比較流行的,不得不提到Google提出的Bigtable。

Bigtable是一種用于管理海量結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng),其數(shù)據(jù)通??梢钥绯汕€(gè)節(jié)點(diǎn)進(jìn)行分布式存儲(chǔ),總數(shù)據(jù)量可達(dá)PB級(jí)(10的15次方字節(jié),106GB)。HBase是其開(kāi)源實(shí)現(xiàn)。如今,在開(kāi)源社區(qū),圍繞Google MapReduce框架,成長(zhǎng)出了一批優(yōu)秀的開(kāi)源項(xiàng)目。這些項(xiàng)目在技術(shù)和實(shí)現(xiàn)上相互支持和依托,逐漸形成了一個(gè)特有的生態(tài)系統(tǒng)。這里借用Cloudera所描繪的架構(gòu)圖來(lái)展現(xiàn)Hadoop生態(tài)系統(tǒng)。這個(gè)系統(tǒng)為我們實(shí)現(xiàn)優(yōu)質(zhì)廉價(jià)的大數(shù)據(jù)分析提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。

綜上所述,面對(duì)大數(shù)據(jù)分析的挑戰(zhàn),不管是計(jì)算模型還是存儲(chǔ)模型技術(shù)都有了超前的進(jìn)步。然而,僅憑借當(dāng)前的技術(shù),我們準(zhǔn)備好面對(duì)健康云上的大數(shù)據(jù)分析的挑戰(zhàn)了嗎?下一節(jié),我們將重點(diǎn)分析醫(yī)療數(shù)據(jù)的特有性質(zhì)為大數(shù)據(jù)分析帶來(lái)的挑戰(zhàn)。

三、健康云上的大數(shù)據(jù)分析

由于醫(yī)療數(shù)據(jù)的一些特有的性質(zhì),給健康云上的大數(shù)據(jù)分析帶來(lái)了特殊的挑戰(zhàn)。

1、 醫(yī)療數(shù)據(jù)是持續(xù)、大量增長(zhǎng)的大數(shù)據(jù)。根據(jù)估算,中國(guó)一個(gè)中等城市(一千萬(wàn)人口)50年所積累的醫(yī)療數(shù)據(jù)量就會(huì)達(dá)到10PB級(jí)。并且,隨著時(shí)間的推移和業(yè)務(wù)系統(tǒng)的不斷升級(jí)換代,醫(yī)療數(shù)據(jù)模式的一致性也無(wú)法保證。因此,每天都會(huì)有大量的數(shù)據(jù)持續(xù)不斷的導(dǎo)入?yún)^(qū)域醫(yī)療數(shù)據(jù)中心,并且每當(dāng)有數(shù)據(jù)模式的更改,相關(guān)的歷史數(shù)據(jù)也需要做相應(yīng)的調(diào)整。所以,區(qū)域醫(yī)療數(shù)據(jù)中心并不是簡(jiǎn)單的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)概念。相比之下,它的模式更靈活、寫(xiě)入和更新的操作更多,而對(duì)數(shù)據(jù)存儲(chǔ)的水平可擴(kuò)展性的要求也更高。

 2、 醫(yī)療數(shù)據(jù)是關(guān)系復(fù)雜的多維數(shù)據(jù)。由于醫(yī)療數(shù)據(jù)是多種數(shù)據(jù)源數(shù)據(jù)的匯總,數(shù)據(jù)之間的關(guān)系非常復(fù)雜。比如:一個(gè)簡(jiǎn)單的實(shí)驗(yàn)室檢驗(yàn)檢測(cè)值,必須同時(shí)記錄這個(gè)值對(duì)應(yīng)的編碼系統(tǒng)和編碼、單位、檢測(cè)時(shí)間、檢驗(yàn)項(xiàng)目、標(biāo)本編碼,以及相關(guān)聯(lián)的患者主索引號(hào)、就診機(jī)構(gòu)、申請(qǐng)科室、申請(qǐng)醫(yī)師標(biāo)識(shí)號(hào)、報(bào)告醫(yī)師標(biāo)識(shí)號(hào)、審核醫(yī)師標(biāo)識(shí)號(hào)、正常值參考等等。一條檢測(cè)記錄就可以把患者、醫(yī)生、醫(yī)療機(jī)構(gòu)多個(gè)實(shí)體在不同層次上關(guān)聯(lián)起來(lái)。而不同的醫(yī)療信息服務(wù)更需要從不同的視角來(lái)觀(guān)察這些數(shù)據(jù),如下圖所示。比如:以患者為中心的服務(wù)需要把一個(gè)患者的全周期數(shù)據(jù)按照時(shí)間軸排列,并分析診斷、用藥和患者生命體征、檢驗(yàn)檢測(cè)值之間的關(guān)聯(lián);以醫(yī)生為中心的服務(wù)又需要把與一個(gè)醫(yī)生相關(guān)的患者數(shù)據(jù)挑揀出來(lái),并進(jìn)行分類(lèi);以科室為中心的服務(wù)可能需要即從科室所屬醫(yī)生的角度,又要從在該科室就診患者的角度進(jìn)行分析;針對(duì)社區(qū)的服務(wù)可能需要統(tǒng)計(jì)整個(gè)社區(qū)居民某項(xiàng)指標(biāo)(比如血壓、血糖)的達(dá)標(biāo)率??傊?,醫(yī)療數(shù)據(jù)的多維度多粒度為各種信息服務(wù)的多角度多層次分析提供了可能,但同時(shí)也為大數(shù)據(jù)分析帶來(lái)了挑戰(zhàn)。因?yàn)槲覀儾豢赡転槊恳环N信息服務(wù)存儲(chǔ)一份特定的優(yōu)化模式的數(shù)據(jù),況且我們也無(wú)法枚舉出所有可能的信息服務(wù)需求。這就需要醫(yī)療數(shù)據(jù)的存儲(chǔ)模型能夠適應(yīng)靈活多變的多維統(tǒng)計(jì)分析需求。

3、 醫(yī)療數(shù)據(jù)是具有語(yǔ)義的數(shù)據(jù)。大家可能聽(tīng)說(shuō)過(guò)語(yǔ)義網(wǎng)(Semantic Web),它是為讓數(shù)據(jù)能跨應(yīng)用進(jìn)行共享和重用所設(shè)計(jì)的框架體系。我們可以把語(yǔ)義網(wǎng)簡(jiǎn)單地理解為:一個(gè)讓機(jī)器(machines)讀懂的維基百科(Wikipedia),主要包括了各種條目的定義以及各個(gè)條目之間的關(guān)系。如果數(shù)據(jù)也采用這些條目和關(guān)系組織內(nèi)容,那么機(jī)器就可以自動(dòng)理解數(shù)據(jù)的語(yǔ)義,并推理出各種知識(shí)。所以建立語(yǔ)義網(wǎng)的關(guān)鍵就是如何制作一本百科全書(shū)(有個(gè)專(zhuān)有名詞叫Ontology)。由于醫(yī)學(xué)是一門(mén)非常嚴(yán)謹(jǐn)?shù)目茖W(xué),其在全球的標(biāo)準(zhǔn)化水平很高,對(duì)疾病名稱(chēng)、藥物成分、臨床特征、儀器設(shè)備等都有嚴(yán)格的定義以及關(guān)聯(lián)描述。所以,語(yǔ)義網(wǎng)在醫(yī)學(xué)領(lǐng)域得到了廣泛應(yīng)用。進(jìn)而,醫(yī)療數(shù)據(jù)也越來(lái)越多的采用基于語(yǔ)義網(wǎng)的臨床文檔框架(CDA)格式的XML文檔來(lái)保存。這些XML文檔通過(guò)Ontology的解釋?zhuān)妥兂闪艘粋€(gè)無(wú)比巨大的概念+事實(shí)+關(guān)系的網(wǎng)絡(luò)。雖然機(jī)器能夠讀懂這個(gè)網(wǎng)絡(luò),并能夠在上面進(jìn)行邏輯推理,從而發(fā)現(xiàn)知識(shí),但是其計(jì)算代價(jià)也是相當(dāng)高的。當(dāng)前的醫(yī)療系統(tǒng)通常會(huì)把復(fù)雜的臨床文檔解析成簡(jiǎn)單的屬性值,并存入自定義的關(guān)系表中。這樣做雖然會(huì)有大量的語(yǔ)義及關(guān)系的丟失,但卻能夠滿(mǎn)足日常業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)處理性能的要求。但是對(duì)于未來(lái)的區(qū)域醫(yī)療信息系統(tǒng)來(lái)說(shuō),為了能夠提供豐富全面的信息服務(wù),我們必須盡可能的保留臨床文檔中的語(yǔ)義信息。這樣,醫(yī)療數(shù)據(jù)分析的過(guò)程中就不可避免的需要對(duì)大量XML文檔進(jìn)行解析、對(duì)各種關(guān)系進(jìn)行推理。這樣的數(shù)據(jù)分析處理過(guò)程比我們之前提到的互聯(lián)網(wǎng)數(shù)據(jù)處理要復(fù)雜得多。

通過(guò)上述的分析可見(jiàn),簡(jiǎn)單地將現(xiàn)有的大數(shù)據(jù)分析技術(shù)套用在健康云服務(wù)上是行不通的。我們需要充分考慮健康云服務(wù)的特點(diǎn)和充分利用現(xiàn)有技術(shù)框架的靈活性,已達(dá)到最好的大數(shù)據(jù)分析性能。初步解決方案:

1. 基于Hadoop生態(tài)系統(tǒng)構(gòu)建健康云數(shù)據(jù)中心,用以解決數(shù)據(jù)存儲(chǔ)水平擴(kuò)展的挑戰(zhàn)。利用MapReduce并行處理批量事務(wù)的能力,從多個(gè)數(shù)據(jù)源(主要是醫(yī)療機(jī)構(gòu)的各個(gè)業(yè)務(wù)系統(tǒng))抽取數(shù)據(jù)、轉(zhuǎn)換格式、并導(dǎo)入基于HBase的數(shù)據(jù)存儲(chǔ)模型。

2. 在數(shù)據(jù)存儲(chǔ)模型的設(shè)計(jì)上,借鑒已有的數(shù)據(jù)倉(cāng)庫(kù)中多維數(shù)據(jù)模型的設(shè)計(jì)思想,比如:星型模式和數(shù)據(jù)立方體的概念。在考慮應(yīng)用需求的基礎(chǔ)上,利用HBase中行鍵、列鍵、列族設(shè)計(jì)的靈活性,將多維醫(yī)療數(shù)據(jù)有效地組織在一起。而在索引技術(shù)上,結(jié)合RDBMS領(lǐng)域的成熟技術(shù),用以進(jìn)一步提高HBase的查詢(xún)性能。對(duì)于數(shù)據(jù)模式的更新,HBase特有的多版本共存的特性正好成了解決問(wèn)題的關(guān)鍵。

3. 為了保留醫(yī)療數(shù)據(jù)中大量的語(yǔ)義關(guān)系,采用結(jié)構(gòu)化數(shù)據(jù)+XML文檔混合存儲(chǔ)的方式。在數(shù)據(jù)導(dǎo)入的同時(shí),提取XML文檔中特定的元數(shù)據(jù),(比如:患者主索引、就診科室、主治醫(yī)師等),并將XML文檔根據(jù)不同粒度打散成大小不一的子文檔。根據(jù)不同粒度的查詢(xún)條件,系統(tǒng)將自動(dòng)選擇相應(yīng)的子文檔進(jìn)行進(jìn)一步信息的解析,從而避免為提取少量信息而不得不解析大量XML文檔的問(wèn)題。

4. 數(shù)據(jù)模型的接口將采用Hive提供的類(lèi)SQL查詢(xún)的方式。這樣更有利于數(shù)據(jù)分析人員設(shè)計(jì)分析算法。同時(shí),系統(tǒng)中將嵌入多種數(shù)據(jù)挖掘算法供數(shù)據(jù)分析師使用。

綜上所述,為解決健康云上的大數(shù)據(jù)分析問(wèn)題,必須同時(shí)利用RDBMS和NoSQL的優(yōu)勢(shì),并且采用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)混合存儲(chǔ)的形式,相互彌補(bǔ)缺陷,已達(dá)到最靈活和最高效的設(shè)計(jì)。而這套基于健康云的大數(shù)據(jù)分析平臺(tái),也將有希望擴(kuò)展到其他類(lèi)似行業(yè),比如:電信、能源、物聯(lián)網(wǎng)和公共事業(yè)等。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀(guān)點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉