百度云副總經(jīng)理謝廣軍:打磨穩(wěn)定高效IT基礎設施,重在場景化落地
按:和每一個從無到有再到繁榮的產(chǎn)業(yè)相類似,云計算產(chǎn)業(yè)也是一面高速前行,一面修補糾偏。行者必近而后遠,這也是各大云廠商都在不斷打磨基礎云產(chǎn)品能力的原因所在,基礎云產(chǎn)品距像水電一樣的基礎設施能力仍有很長的路要走,在具體實踐中,上層應用反過來對基礎云產(chǎn)品提出更多的訴求,百度云如何打磨基礎云產(chǎn)品能力,對話負責百度云基礎技術和安全等方向產(chǎn)品規(guī)劃及研發(fā)業(yè)務的百度云副總經(jīng)理謝廣軍,獲悉百度云的一些思考。
百度云副總經(jīng)理謝廣軍
百度云基礎架構三步走
在近日落幕的2018百度云智峰會上,百度云將媒體戰(zhàn)略更新到3.0版本,總結起來就是“最落地的AI、最安全的大數(shù)據(jù)和最先進的云”,媒體+IoT是百度云新一代計算架構。百度副總裁兼百度云總經(jīng)理尹世明強調,媒體不僅是A+B+C,還是一套可擴展的架構,能夠將各種技術靈活地嵌入其中,形成媒體+的擴展能力。
謝廣軍表示,百度云基礎架構主要經(jīng)歷了三個階段,第一代產(chǎn)品包括主機類、存儲類產(chǎn)品,早已基于大規(guī)模分布式技術平臺。了解到,百度在2003年已經(jīng)將搜索技術全部換到分布式計算系統(tǒng);第二階段,基于敏捷開發(fā)、快速上線需求,百度云建立支持微服務的架構。
當下是第三個階段,即異構計算階段,大數(shù)據(jù)、人工智能等應用場景需要更大規(guī)模算力,更好計算并發(fā)性,百度云除了提供CPU的能力,還提供GPU、FPGA,甚至在自研做XPU芯片,通過中間件調度硬件匹配計算任務,形成一個算力池,即異構計算。
就目前百度云情況來說,需要加強的方面包括兩點,其一是邊緣或者云+端的融合計算模式。隨著5G技術的大規(guī)模應用,物聯(lián)網(wǎng)時代腳步漸進,云+端+邊緣如何融合成一個計算模式,未來可能有更統(tǒng)一的基礎架構問世。其二是區(qū)塊鏈,謝廣軍介紹道,百度云希望把區(qū)塊鏈也做成基礎架構,目前在探索當中,應用場景還不夠豐富,但在存證、定損、催收等場景已經(jīng)有落地的方案。
目前大型公有云廠商在產(chǎn)品層面頗有“貪大求全”的競爭意味,謝廣軍提到,產(chǎn)品多可以將整個場景覆蓋的更全。但是對于基礎產(chǎn)品而言,多只是其中的一個點,并不代表全部競爭力。對基礎產(chǎn)品來講,更多的是內在的穩(wěn)定性、安全性,本身的性能,以及研究如何更適應于應用場景。
“百度云要快速開發(fā)、搭建產(chǎn)品,有很多的開源軟件可以實現(xiàn),輸出多種類的產(chǎn)品其實很容易。但實際運營當中產(chǎn)品的打磨是非常重要的,對于各家云廠商都是如此”,謝廣軍表示。
近期多發(fā)的云服務廠商宕機事件也給業(yè)界提了個醒,安全能力仍然是評估云廠商綜合能力重要維度。百度云在穩(wěn)定性和風險防控等層面也做了不少工作。在技術方面,百度云自查架構單點,考量分布式技術是否成熟,同時也做假想故障演練。另外針對業(yè)內出現(xiàn)的故障,百度云收集新問題并通過其他架構解決。
對于一個多客戶的系統(tǒng)來講,人工操作的比例越低越好。另外從整個流程規(guī)范上來講,所有的變更,實效性或者靈活性和穩(wěn)定性有可能是矛盾的,開發(fā)效率、迭代效率可能會高,但會帶來很多風險性的問題,百度云所有的變更要有回滾方案,不能回滾的要經(jīng)過嚴格的審批和更嚴格的測試?!鞍俣仍撇幌奚撵`活性,換來穩(wěn)定性的加強和提升”,謝廣軍表示。
云計算能力大多脫身于云服務商自身的IT實踐,謝廣軍的工作分為幾部分,第一是百度內部更大規(guī)模的技術架構,這支撐著百度搜索等巨量用戶產(chǎn)品線;第二以整個基礎架構能力為基礎,對外做云服務,謝廣軍主要做基礎云產(chǎn)品,包括計算、存儲、網(wǎng)絡、安全、分發(fā),像媒體云這樣的場景;第三則是行業(yè)落地,比如金融行業(yè)解決方面的落地。
場景化落地實踐
基于基礎云產(chǎn)品,謝廣軍負責百度云金融行業(yè)解決方案的落地,用他的話來說,這是“探索”。
其實百度在金融行業(yè)的探索已經(jīng)形成了一套打法,云智峰會上百度云進一步發(fā)布了數(shù)據(jù)庫金融一體機(Fdata)——高性能TPS、高安全、低成本、開箱即用一體機交付。該產(chǎn)品已經(jīng)投產(chǎn)并落地于百信銀行、度小滿金融;這款數(shù)據(jù)庫產(chǎn)品完全基于X86體系,通過軟硬件綜合優(yōu)化,引入GPU+RDMA高性能設備優(yōu)化,5個9高可用、1萬+的TPS、系統(tǒng)配置安裝時間縮短 80% 、支持等保4級;同等算力情況下,TCO對比傳統(tǒng)商業(yè)數(shù)據(jù)庫+小型機+高端存儲解決方案降低70%。
謝廣軍表示,新技術驅動智能金融時代的到來,這其中有兩層含義。第一,智能金融從提高效率、降低成本的角度,演進到使用以人工智能為代表的新技術,比如說智能客服,可以減少大量的人工客服、接線員的工作;第二,新技術能夠啟動金融的產(chǎn)品模式和業(yè)務模式本身的創(chuàng)新。比如智能投顧,保險行業(yè)的智能定損,以前沒有金融方面的模式,今天將成為一種可能。
人工智能為何能夠在產(chǎn)業(yè)落地,驅動整個產(chǎn)業(yè)模式創(chuàng)新?謝廣軍表示,首先是人工智能的算法創(chuàng)新,比如人工神經(jīng)網(wǎng)絡,深度神經(jīng)網(wǎng)絡,DNN等算法的創(chuàng)新;其次是大數(shù)據(jù),數(shù)據(jù)處理能力的提升,人工智能離不開大數(shù)據(jù);最后是硬件、計算能力的跨時代變革。金融就是應用媒體能力的典型代表,驅動整個產(chǎn)業(yè)模式降本增效的提升。
不光是百度云,金融行業(yè)因為本身數(shù)據(jù)資源充分,更容易引入AI,另外隨著業(yè)務系統(tǒng)逐漸上云,金融企業(yè)和機構擁抱云計算的趨勢越來越明顯,不少云服務商都在掘金這一高地。
目前金融行業(yè)上云難題分布于各個層面,在基礎架構方面,金融云,由IOE轉向更開放的云架構需要更嚴格的合規(guī),在業(yè)務系統(tǒng)不間斷情況下,把存量業(yè)務從傳統(tǒng)IOE架構遷移,是另一個痛點。
“人工智能實際在行業(yè)落地,還是存在著非常多的定制化,這些是需要我們有非常多的資源才能實現(xiàn)產(chǎn)業(yè)落地的。我覺得定制化來源于兩方面,一方面是人工智能要實現(xiàn)較好效果是強依賴于數(shù)據(jù),而且依賴于場景化的數(shù)據(jù)。通用的模型再好,還是要結合客戶的數(shù)據(jù)才能實現(xiàn)場景落地,這一點實際就是一種定制化。第二方面需要對接到它原有業(yè)務系統(tǒng)上,這里面也需要有定制化,這就是我們行業(yè)的痛點”,謝廣軍表示。
了解到,百度云給金融客戶提供多種方案,混合云、私有云以及專有云,百度專有云是指金融合規(guī)的資源池,每個租戶物理上是隔離的,但所有的用戶在統(tǒng)一管控之下。另外一體機模式提供了更輕量的方案,即插即用,百度云把已經(jīng)做好的基礎模型,比如人臉、語音、聲紋等能力,集成于一體機。
據(jù)百度云公布數(shù)據(jù),與去年相比,百度云用戶數(shù)增加了三倍,合作伙伴數(shù)量增加了三倍,收入增加了四倍,流量增加了五倍。
“很多行業(yè)最終需要的是更偏向于場景的一個或多個解決方案,不是一個主機產(chǎn)品或者數(shù)據(jù)庫產(chǎn)品。我們還有大量的沒有形成特別明確、特別可復制的解決方案。百度云也有團隊在做探索,一旦我們覺得是比較成型的解決方案,我們就會把它分出來獨立的把這個場景打深、打透,這是行業(yè)化的探索”,從基礎云產(chǎn)品到場景化解決方案,已經(jīng)成為云服務廠商的新競爭路線,百度云同樣由近及遠開拓戰(zhàn)場,媒體 3.0強調的更是場景化和行業(yè)化的落地。