迎戰(zhàn)海量數(shù)據(jù)處理的難題,開拓數(shù)據(jù)價值的星辰大海|亞馬遜云科技re:Invent北京站從四大角度解讀云服務(wù)創(chuàng)新
第十一屆的亞馬遜云科技re:Invent大會上個月已經(jīng)在拉斯維加斯成功召開,5場主題論壇、數(shù)百場分論壇和豐富的技術(shù)應(yīng)用展示,讓5萬多線下參與者和超過30萬的線上觀眾大飽眼福。而在上周,亞馬遜云科技在北京召開了re:Invent中國媒體溝通會,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建先生從云原生數(shù)據(jù)戰(zhàn)略、云安全、云底層技術(shù)創(chuàng)新和全新應(yīng)用程序四大角度,為我們解讀了今年re:Invent的發(fā)布重點(diǎn)內(nèi)容。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建
云原生數(shù)據(jù)戰(zhàn)略:應(yīng)對浩瀚無垠的數(shù)據(jù)挑戰(zhàn)
數(shù)據(jù)爆炸到今天已經(jīng)不是一個未來的,而是現(xiàn)實。分析師判斷未來5年所產(chǎn)生的數(shù)據(jù)是整個數(shù)字時代所產(chǎn)生數(shù)據(jù)的重量兩倍還要多。如何去管理海量數(shù)據(jù),挖掘數(shù)據(jù)的價值,對每個企業(yè)來說一方面是巨大的挑戰(zhàn),另一方面也蘊(yùn)含無限的價值。
陳曉建表示,數(shù)據(jù)是整個應(yīng)用程序業(yè)務(wù)邏輯的核心,幾乎是每個組織數(shù)字化轉(zhuǎn)型的基石,但處理數(shù)據(jù)非常棘手,這也是亞馬遜云科技一直致力于建設(shè)一個云原生的數(shù)據(jù)戰(zhàn)略的原因。亞馬遜云科技在云計算領(lǐng)域也頒布了第一個云原生的數(shù)倉Amazon Redshift,還包括第一個專門構(gòu)建的數(shù)據(jù)庫服務(wù)Amazon DynamoDB。經(jīng)過多年的發(fā)展,亞馬遜云科技提供了一個端到端的數(shù)據(jù)戰(zhàn)略,幫助客戶從數(shù)據(jù)的攝入、存儲、查詢、分析,到可視化的展現(xiàn),以及到人工智能,在各個方面通過安全、合規(guī)的方式幫助客戶實現(xiàn)數(shù)據(jù)的共享和輸出。
“我們希望提供的所有工具,能夠幫助客戶在整個數(shù)據(jù)全生命周期從存儲到最后的AI人工智能,在每個環(huán)節(jié)都能幫助用戶把數(shù)據(jù)利益最大化,通過提供完整全面的數(shù)據(jù)解決方案,可以幫助客戶更安全、更高效的去挖掘數(shù)據(jù)價值?!?
Gartner發(fā)布的《云數(shù)據(jù)庫管理系統(tǒng)魔力象限》報告,連續(xù)8年將亞馬遜云科技評為領(lǐng)導(dǎo)者企業(yè),今年也同樣在戰(zhàn)略前瞻性和市場執(zhí)行力方面獲得了最高分。針對如何構(gòu)建一個云原生的數(shù)據(jù)戰(zhàn)略?亞馬遜云科技認(rèn)為有三個關(guān)鍵因素:
第一,需要去建立一個面向未來的數(shù)據(jù)底層基礎(chǔ)設(shè)施。 第二,需要實現(xiàn)一個跨組織的數(shù)據(jù)一體化融合。數(shù)據(jù)不再是一個個煙囪式的孤島,而是一個完整的打通的大的數(shù)據(jù)庫。 第三,能夠通過教育和工具,來實現(xiàn)數(shù)據(jù)的普惠化,來降低數(shù)據(jù)使用的門檻,讓更多的人可以從浩瀚的數(shù)據(jù)中獲益。
而要打造一個云原生的端到端的數(shù)據(jù)戰(zhàn)略,分為三個部分。
需要構(gòu)建一個極致的性能。 第二,要有一個輕松和無處不在的連接,不光是亞馬遜云科技各種云服務(wù)之間的連接,同時也通過AppFlow、通過Data Wrangler,能夠讓客戶自由地、簡便地去連接到外部的各種數(shù)據(jù)源。 第三,通過數(shù)據(jù)的普惠化、智能化、各種培訓(xùn)以及工具的能力,能夠降低用戶去使用數(shù)據(jù)的智能化服務(wù)的門檻,讓更多的人可以從中受益。
在本屆的re:Invent大會上,亞馬遜云科技發(fā)布了諸多和數(shù)據(jù)相關(guān)的服務(wù)。例如Amazon Athena for Apache Spark,讓用戶可以像使用Amazon S3一樣,方便地通過Amazon Athena來使用Spark。短短一秒鐘之內(nèi),就可以在Apache Spark運(yùn)行一個交互式的數(shù)據(jù)分析服務(wù)。
另外一個功能叫Amazon Redshift Integration for Apache Spark,用戶可以通過像EMR、Amazon Glue這樣的Spark引擎來消費(fèi)Amazon Redshift里面的數(shù)據(jù)。和目前Amazon Redshift和Spark之間的連接方式相比,優(yōu)化的技術(shù)可以使得Spark引擎對Amazon Redshift數(shù)據(jù)抽取性能提升10倍之多。
數(shù)據(jù)庫方面也有一些新的特性的發(fā)布,譬如Amazon DocumentDB的Elastic Clusters,它可以把單個節(jié)點(diǎn)通過橫向水平擴(kuò)展而擴(kuò)展成一個集群。把Amazon DocumentDB的存儲容量從64TB一下子拓展了32倍,到兩個PB這么多。同時標(biāo)準(zhǔn)的Amazon RDS也進(jìn)行了很多讀和寫的優(yōu)化。通過本次發(fā)布的特性,新版本的Amazon RDS的寫性能是之前頒布產(chǎn)品的兩倍,讀性能可以提升50%。
另外, Amazon SageMaker今年新發(fā)布的功能支持地理空間數(shù)據(jù)學(xué)習(xí),用戶只要單擊幾下,就可以從Amazon SageMaker訪問不同的數(shù)據(jù)源上面的地理空間數(shù)據(jù)。此外本次亞馬遜云科技也推出了Amazon SageMaker ML Governance,由Role Manager、Model Cards和Model Dashboard三個工具組成。
更為令人期待的發(fā)布是Amazon OpenSearch Serverless,這一服務(wù)補(bǔ)全了亞馬遜云科技8年前發(fā)布的Serverless至今的最后一塊拼圖。Amazon OpenSearch可以和MSK一起配合,對實時數(shù)據(jù)進(jìn)行需求大數(shù)據(jù)分析,對用戶來說使用成本更低。
為了讓機(jī)器學(xué)習(xí)變得更加普惠,亞馬遜云科技推出了通過自然語言與Amazon QuickSight的交互功能——Amazon QuickSight Q。通過這一功能,用戶可以用更自然、簡單易用的方式來和QuickSight交互。
云安全:從底層硬件到上層服務(wù)的安全構(gòu)建
隨著海量數(shù)據(jù)的產(chǎn)生,與數(shù)據(jù)處理挑戰(zhàn)而來的,還有客戶對于數(shù)據(jù)安全方面的擔(dān)憂。相比起數(shù)據(jù)挖掘,安全應(yīng)該是優(yōu)先級更高的工作。陳曉建從四個方面為大家詮釋了亞馬遜云科技的在安全方面的工作。
第一,如何幫助客戶快速提升安全水平?
亞馬遜云科技云安全整個合規(guī)有一個責(zé)任共擔(dān)模型。亞馬遜云科技在底層整個實現(xiàn)和架構(gòu)方面,能夠?qū)崿F(xiàn)盡可能的安全,包括加密,用戶始終擁有自己的數(shù)據(jù),并且能夠加密移動和管理保留這些數(shù)據(jù)。
一個典型的案例就是“Nitro卡”。Nitro有一個Enclaves的特殊硬件環(huán)境,這個硬件環(huán)境有一個非常好的隔離。Nitro還有一個TPM的芯片,是專用的安全芯片,可以讓用戶更好地依賴于TPM的一些應(yīng)用程序和操作系統(tǒng)。
第二,如何降低安全的成本?
在本次re:Invent大會中,亞馬遜云科技發(fā)布了Amazon Verified Permissions,通過將授權(quán)和業(yè)務(wù)邏輯分離,來加速應(yīng)用程序的開發(fā),通過把全新的集中和自動化的分析,來簡化合規(guī)的審計工作,通過動態(tài)的自動授權(quán),來構(gòu)建一個零信任架構(gòu)的應(yīng)用程序。
第三,如何減少安全事件的處理時間?
在本次re:Invent大會上,亞馬遜云科技發(fā)布了Amazon Security Lake。這是業(yè)界第一個為了安全所專門定制的一個數(shù)據(jù)湖,它可以通過匯聚分析和響應(yīng)來自于亞馬遜云科技云服務(wù)、用戶自身的業(yè)務(wù)、和其它安全合作伙伴的數(shù)據(jù),來構(gòu)建一個數(shù)據(jù)湖,為安全分析提供價值。
另一個新特性是Amazon GuardDuty RDS Protection。Amazon GuardDuty是一個威脅檢測服務(wù),它內(nèi)在的機(jī)器學(xué)習(xí)能力可以幫助客戶去智能地監(jiān)控其帳號和所有工作負(fù)載,看這些服務(wù)里是不是有安全風(fēng)險。
第四,怎樣提升安全效率?
在此次re:Invent上,亞馬遜云科技發(fā)布了External Key Store(XKS)for Amazon KMS,這項功能的好處在于已經(jīng)和100多項亞馬遜云科技的云服務(wù)集成了,用戶可以不用再去做一些煩瑣的自己集成的開發(fā)工作,就可以使用自己的密鑰管理系統(tǒng)。
此外,Amazon Macie的自動數(shù)據(jù)發(fā)現(xiàn)功能,可以自動、智能地對Amazon S3里的對象進(jìn)行采樣和分析,來發(fā)現(xiàn)里面的敏感數(shù)據(jù)。用戶可以對自己的存儲空間里到底存在哪些敏感信息有一個直觀感受,用戶數(shù)據(jù)治理的效率相信會得到大大提升。
陳曉建表示,亞馬遜云科技將持續(xù)在安全中投入,亞馬遜云科技理解安全對于用戶業(yè)務(wù)的重要性,將通過更好的配置、更好的工具、更智能的分析以及更好的監(jiān)控和警告機(jī)制,幫助用戶在云中提升安全的態(tài)勢。
云底層基石:高性能芯片+極速構(gòu)建云原生應(yīng)用+HPC服務(wù)
一切云服務(wù)都要跑在底層的硬件上,而硬件的能力和效率,也決定了用戶的上層服務(wù)的使用成本和能耗。因此,要成為好的云服務(wù)商,必須要具備領(lǐng)先的底層能力。而陳曉建將亞馬遜云科技的底層基石,分為三個部分:第一,極致性能的自研芯片;第二,極速構(gòu)建的云原生的應(yīng)用;第三,面向極限未來的HPC的服務(wù)。
第一:極致性能的自研芯片
Annapurna(安納布爾納峰)是一座在喜馬拉雅群山中海拔8091米的極高峰,也是亞馬遜云科技自研芯片團(tuán)隊的名字,通過10年的努力,亞馬遜云科技構(gòu)建了3條自研芯片的產(chǎn)品線——四代定制化芯片Nitro,三代基于ARM架構(gòu)的CPU處理器Graviton,還有兩款用于機(jī)器學(xué)習(xí)訓(xùn)練和推理的芯片。
在此次re:Invent大會上,亞馬遜云科技發(fā)布了最新的第五代Nitro。據(jù)悉,Nitro V5晶體管數(shù)量是上一代Nitro的兩倍,整個數(shù)據(jù)包的轉(zhuǎn)發(fā)能力提升了60%,延遲減少了30%,每瓦特的性能提升了40%,所以V5的性能確實稱得上威武。
Graviton也發(fā)布了Graviton3E,是 Graviton 3 家族的最新成員。新一代專門為浮點(diǎn)和向量指令運(yùn)算進(jìn)行了優(yōu)化,這些工作在整個高性能計算之中是非常重要的。從用戶場景來看,在HPC新一代數(shù)據(jù)測量工具上,Graviton 3E相比于Graviton3有35%的提升,在分子運(yùn)動分析場景上性能可以提升12%,在金融期權(quán)定價方面可以提升30%的性能。
配合最新的芯片Nitro V5和Graviton3E,亞馬遜云科技為客戶帶來了最新的實例C7gn。C7gn這個實例最適合用的場景是網(wǎng)絡(luò)密集型的負(fù)載,具有最高的網(wǎng)絡(luò)帶寬和最低的延遲。同前一代整個網(wǎng)絡(luò)優(yōu)化的實例相比,提供了200Gbps的整個網(wǎng)絡(luò)帶寬和50%的數(shù)據(jù)包處理能力的提升。
在訓(xùn)練方面,亞馬遜云科技計劃推出一款基于Trn1的一個網(wǎng)絡(luò)優(yōu)化型實例Trn1n,進(jìn)一步把網(wǎng)絡(luò)帶寬增加一倍,從800GB躍升到1.6個TB,通過強(qiáng)大的網(wǎng)絡(luò)吞吐能力,能夠?qū)⒊^1萬個Traniumn芯片構(gòu)建在一個超大規(guī)模集群里,對超大集群進(jìn)行并行訓(xùn)練。
在推理方面,亞馬遜云科技推出了下代自研推理芯片Inferentia2以及基于此的Amazon EC2 Inf2實例。Inf2實例是唯一一個專門為了大型transformer模型,所做的模型分布式推理建立的實例。和Inf1實例相比,Inf2實例整個吞吐量提升了4倍,延時只有十分之一。每瓦性能提升達(dá)到45%,同時也支持類似于GPT-3,Mask R-CNN、VIT等等這樣超大型的復(fù)雜模型。
第二:極速構(gòu)建的云原生的應(yīng)用
亞馬遜云科技通過自身的電商云原生改造經(jīng)歷,以及16年服務(wù)數(shù)百萬個客戶的云原生的經(jīng)歷,總結(jié)了一套邁向云原生的治理經(jīng)驗,包括構(gòu)建、治理和迭代三個階段九個環(huán)節(jié)的旅程。
構(gòu)建階段,一切皆代碼。通過代碼來定義和管理所有類型的資源。比如說CDK可以把所有的基礎(chǔ)設(shè)施面向?qū)ο蟮木幊陶Z言描述出來,交給系統(tǒng)自動維護(hù)。
第二、治理階段,安全團(tuán)隊和開發(fā)和運(yùn)行團(tuán)隊集成,避免讓安全成為整個流水線中的瓶頸。通過Amazon GuardDuty對Amazon S3、Amazon EBS、對Amazon Aurora進(jìn)行持續(xù)監(jiān)控,能夠預(yù)先發(fā)現(xiàn)系統(tǒng)的安全隱患并且加以解決來保證業(yè)務(wù)的安全性。
第三、持續(xù)迭代的階段,很多平臺型服務(wù)一旦構(gòu)建之后,不光可以為自己所用,也可以把其共享給團(tuán)隊內(nèi)其他業(yè)務(wù)團(tuán)隊所有。比如說數(shù)據(jù)庫、消息隊列、API網(wǎng)關(guān)、緩存等,通過EKS Blueprints可以構(gòu)建為共享服務(wù)平臺,讓一個服務(wù)為更多的其他組件受益。
最有名的案例就是Amazon Lambda,這一服務(wù)從2014年推出以來備受客戶的喜愛,每個月的月活用戶超過百萬,每個月函數(shù)的調(diào)用次數(shù)超過10萬余次。此次最新的改進(jìn)在于對“Java開發(fā)Amazon Lambda函數(shù)的冷啟動”的優(yōu)化。新的Amazon Lambda SnapStart可以大幅降低Amazon Lambda函數(shù)的冷啟動延遲,并且沒有額外的成本。Amazon Lambda SnapStart的工作原理是,在整個函數(shù)新建和創(chuàng)立的時候?qū)φ麄€Micro VM進(jìn)行一個快照,當(dāng)函數(shù)調(diào)動的時候,不會去重復(fù)整個冷啟動過程,而是直接通過快照快速加載。
CodeCatalyst這一新推出的工具則是對于DevOps理念的最好詮釋,這一工具提供了完整的項目管理,自動化的流水線高效開發(fā)和調(diào)試集成等能力。用戶可以通過簡單的拖拽就可以建立業(yè)務(wù)程序的架構(gòu),從而解決了不同團(tuán)隊不同角色,或者一個團(tuán)隊多個角色的運(yùn)維和開發(fā)難題。
第三:面向極限未來的HPC的服務(wù)
關(guān)于HPC服務(wù),客戶關(guān)注三個方面。首先,客戶需要最適合HPC的計算實例。其次,為了配合HPC還需要有網(wǎng)絡(luò)、存儲等諸多配套資源支持。第三、需要有很強(qiáng)的資源編排系統(tǒng)、算力編排系統(tǒng)支持HPC的工作。
計算實例方面,亞馬遜云科技此次推出的HPC7g就是專門為了高性能的計算工作而設(shè)計的,非常適合計算密集型的HPC應(yīng)用,比如說計算流體力學(xué)、分子動力學(xué)和天氣模擬等等。此外亞馬遜云科技還提供了搭載英特爾或AMD芯片的HPC實例,用戶可以根據(jù)自己的需求來自由選擇。
在網(wǎng)絡(luò)數(shù)據(jù)傳輸方面,SRD是亞馬遜云科技自己開發(fā)的網(wǎng)絡(luò)協(xié)議,可以使用多條路徑并行地為統(tǒng)一數(shù)據(jù)流提供服務(wù)。SRD可以帶來極高的網(wǎng)絡(luò)吞吐量和極低的延時,以及更高的可靠性。任何一條路徑如果出問題不會影響整個流量的中斷。
在仿真方面,Amazon SimSpace Weaver是全新推出的服務(wù),最大的好處是可以在云端進(jìn)行大規(guī)模并行空間模擬,用戶不用擔(dān)心單個節(jié)點(diǎn)物理上的硬件限制。據(jù)悉,SimSpace Weaver非常擅長模擬人群,可以自動地把這個模型分配到多個不同節(jié)點(diǎn),并且還有最大的好處是同一個物體在不同區(qū)域里是可以來回走動的。
開箱即用的應(yīng)用程序:將AI/ML植入到行業(yè)解決方案
要幫助客戶完成極限的挑戰(zhàn), 為客戶提供好用易用的應(yīng)用程序是最直接的方式。作為本次演講的最后一部分,陳曉建介紹了四大產(chǎn)品相關(guān)的解決方案。
第一:Amazon Clean Rooms
技術(shù)創(chuàng)新的錨點(diǎn)通常誕生于不同行業(yè)和領(lǐng)域的相互交匯和碰撞之中,但是這樣的創(chuàng)新會帶來很大的挑戰(zhàn),關(guān)鍵在于如何保證數(shù)據(jù)和業(yè)務(wù)的溝通互相打通同時又保證安全性。
Amazon Clean Rooms可以幫助多方協(xié)同者在亞馬遜云科技環(huán)境下安全地進(jìn)行數(shù)據(jù)協(xié)作,但是不需要擔(dān)心自己源數(shù)據(jù)的泄露。用戶的數(shù)據(jù)可以放在不同的Amazon S3的存儲桶里,不需要暴露用戶和數(shù)據(jù),只需制定一些符合開放原則的查詢規(guī)則即可。
Amazon Clean Rooms有著非常普遍的應(yīng)用場景,最常見的就是精準(zhǔn)網(wǎng)絡(luò)投放。沒有人愿意把原始數(shù)據(jù)告訴對方,這個時候就可以很方便地使用Amazon Clean Rooms來實現(xiàn)數(shù)據(jù)的協(xié)作,但是又不暴露彼此的原始數(shù)據(jù)。
第二:Amazon Omics
Amazon Omics是為了醫(yī)療從業(yè)者基于組態(tài)的數(shù)據(jù)協(xié)作提供絕佳的合作平臺。醫(yī)療數(shù)據(jù)有它自己的特點(diǎn):數(shù)據(jù)量大,同時隱私性極強(qiáng)。
客戶通過Amazon Omics實現(xiàn)多組學(xué)多模態(tài)的分析,從而把更多維度的數(shù)據(jù)和個人基因結(jié)合,能夠為每個個體產(chǎn)生定制化服務(wù),并且這些服務(wù)都是嚴(yán)格按照GDPR或者HIPPA這樣的醫(yī)療行業(yè)相關(guān)的數(shù)據(jù)安全規(guī)范所實現(xiàn)的。
Amazon Omics有著非常豐富的應(yīng)用場景,包括大規(guī)模的群體測序,可構(gòu)建可復(fù)用和追溯的臨床基因工作流和提升臨床基因的工作質(zhì)量等等。
第三:亞馬遜云科技自身的能力
首先是Amazon Connect,這是一個線上的呼叫中心云服務(wù)。客戶只要在控制臺里點(diǎn)擊幾下就可以構(gòu)建這樣的服務(wù)。座席代表可以在幾分鐘之內(nèi)從世界各地任何地點(diǎn)進(jìn)行對話,客戶也可以根據(jù)需要實時動態(tài)地去擴(kuò)大或者縮小整個呼叫中心規(guī)模。
針對Amazon Connect,亞馬遜云科技推出了三項新創(chuàng)新。第一是通過機(jī)器學(xué)習(xí)預(yù)測和容量規(guī)劃和調(diào)度,幫助管理人員優(yōu)化計劃。二是客服績效管理功能,通過一些實時分析幫助呼叫中心管理者能夠更好地認(rèn)識到員工績效,并且指導(dǎo)如何去幫助員工。最后是客服指南,通過交互指導(dǎo)幫助客服更有效更好地解決用戶打過來的問題。
Amazon Supply Chain是從亞馬遜云科技自身能力開放出來的一個新服務(wù),這是一套非常強(qiáng)大和完善的物流供應(yīng)鏈管理系統(tǒng)??蛻糁恍枰c(diǎn)擊幾下就可以連接到相關(guān)的各種供應(yīng)鏈數(shù)據(jù),然后有這么多數(shù)據(jù)之后,Amazon Supply Chain會通過機(jī)器學(xué)習(xí)模型自動地進(jìn)行ETL處理,來建設(shè)一個統(tǒng)一的數(shù)據(jù)湖。數(shù)據(jù)到位之后,Amazon Supply Chain也可以提供全景的視圖,呈現(xiàn)各種可視化的深度分析,來幫助客戶更好地進(jìn)行優(yōu)化降低風(fēng)險和成本。
結(jié)語
此次亞馬遜云科技re:Invent發(fā)布了大量的新的特性、服務(wù)、工具和產(chǎn)品,濃縮起來仍然是內(nèi)容非常之多。而陳曉建將其總結(jié)為五點(diǎn):
· 十年領(lǐng)跑,硬件創(chuàng)新進(jìn)入加速期
· 全面引領(lǐng)Serverless和云原生
· 構(gòu)建云原生端到端戰(zhàn)略
· 持續(xù)增強(qiáng)安全性
· 賦能行業(yè),創(chuàng)新突破
自從亞馬遜云科技發(fā)明云服務(wù)以來,數(shù)年的時間里,云服務(wù)改變了企業(yè)的決策機(jī)制,并提高了整個行業(yè)的創(chuàng)新速度。未來,云服務(wù)將繼續(xù)帶來顛覆性變革,而亞馬遜云科技將與各行各業(yè)的“探路者”企業(yè)一起,在極端環(huán)境下充滿信心應(yīng)對挑戰(zhàn),暢想未來的無限可能。