數(shù)據(jù)世界是四維的:通過感知獲得一維數(shù)據(jù),來觀測真實世界;第二維,通過人工智能對感知數(shù)據(jù)進行特征提取,真實地反映世界;第三維,隨著空間數(shù)據(jù)的融合,構(gòu)建空間矩陣,構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化;第四維,則是全面計算的過程,通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣,充分描述和表達真實世界。
峰會邀請到了業(yè)內(nèi)極具代表性的14位業(yè)內(nèi)知名專家,世界頂尖人工智能科學(xué)家、芯片創(chuàng)業(yè)大牛、產(chǎn)業(yè)巨頭首席技術(shù)高管、明星投資人齊聚,為行業(yè)資深從業(yè)者們分享前瞻的技術(shù)研究與商業(yè)模式方法論。
在大會上午場,大華股份研發(fā)中心副總裁、先進技術(shù)研究院院長殷俊以《AI構(gòu)建數(shù)字世界的基礎(chǔ)》為主題發(fā)表精彩演講。
在殷俊看來,數(shù)據(jù)世界是四維的:通過感知獲得一維數(shù)據(jù),來觀測真實世界;第二維,通過人工智能對感知數(shù)據(jù)進行特征提取,真實地反映世界;第三維,隨著空間數(shù)據(jù)的融合,構(gòu)建空間矩陣,構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化;第四維,則是全面計算的過程,通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣,充分描述和表達真實世界。
他表示,在二維世界里面,人臉、語音識別或者很多檢測識別真正構(gòu)筑了二維特征數(shù)據(jù)的空間,數(shù)據(jù)的準確率是最高要求。因為只有構(gòu)建精準的二維數(shù)據(jù)世界,才能準確表達世界上的萬世萬物。對行人的特征描述,則是典型的應(yīng)用三維數(shù)據(jù)來形成更精準的定位。四維空間內(nèi),系統(tǒng)可以加入時域的分析,做更多預(yù)測、決策和評估的工作。
算力方面,殷俊認為,數(shù)據(jù)在不斷升遷,算力增加是必然的,往后更需要大算力芯片。而大算力的芯片除了感知之外,還可以在邊緣側(cè)提取特征和空間分析;到了中心側(cè),能夠完成二維、三維、四維數(shù)據(jù)的分析。
同時他也強調(diào),盡管隨著數(shù)據(jù)遷移,數(shù)據(jù)大幅度濃縮,從單點來看要求下降,但四維數(shù)據(jù)要求的路數(shù)和要獲得的感知數(shù)據(jù)更多,網(wǎng)絡(luò)成本反而增加。到越高維,網(wǎng)絡(luò)代價越高。所以,需要根據(jù)業(yè)務(wù)綜合部署,考量網(wǎng)絡(luò)和計算的分布,看到底如何形成最佳的計算網(wǎng)絡(luò)。
以下是殷俊的大會現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理及編輯:
大家好,非常榮幸今天能夠代表大華為大家分享我們對AI的認識以及對AI的定位。
首先我提一個觀點:AI是構(gòu)建數(shù)字世界的基礎(chǔ),那什么是數(shù)字世界,以及為什么數(shù)據(jù)會成為數(shù)字世界的必要條件?
首先我們來看一下AI做了什么事情。
其實我們正在構(gòu)筑一個數(shù)字世界,用數(shù)字化世界描述真實世界。實際上數(shù)字世界和真實世界有很大差異,真實世界中物質(zhì)由很多元素構(gòu)成,數(shù)據(jù)世界數(shù)據(jù)是唯一的元素,只有數(shù)據(jù)才能構(gòu)建我們的數(shù)字世界。
我們的數(shù)據(jù)世界如何構(gòu)建?在大華看來,我們構(gòu)建了四維的數(shù)字世界。首先,我們通過感知獲得一維感知數(shù)據(jù),來觀測真實世界發(fā)生了什么事情。
第二維,通過人工智能對感知數(shù)據(jù)進行特征提取,真實地反映真實世界到底是什么東西,比如是一個人、一個人臉、一輛車。
在第三維世界,隨著空間數(shù)據(jù)的融合,我們構(gòu)建空間矩陣,構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化。
第四維,我們認為是一個全面計算的過程,通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣,充分描述和表達真實世界到底發(fā)生什么事情、出現(xiàn)什么行為、出現(xiàn)什么事件。
這個過程中,我們用感知和物聯(lián)網(wǎng)技術(shù)構(gòu)建一維數(shù)據(jù),用人工智能構(gòu)建第二維、第三維、第四維數(shù)據(jù),而且不同維度都會進行數(shù)據(jù)檢索。隨著數(shù)據(jù)維度增多,數(shù)據(jù)的價值也會快速提升。以往我們看一個小時的數(shù)據(jù),一維世界可能會消耗多達幾個G的存儲空間,到四維數(shù)據(jù)可以通過簡單描述告訴觀察者這段時間發(fā)生什么事情、觀測對象是什么,所以數(shù)據(jù)是高度濃縮的。這個過程中,我們消耗了大量計算能力。每一維數(shù)據(jù)升遷需要耗費很大計算力,這是AI真正幫助我們構(gòu)建的數(shù)字世界。
我們認為在二維世界里面,人臉、語音識別或者很多檢測識別真正構(gòu)筑了二維特征數(shù)據(jù)的空間。在這里,我們認為數(shù)據(jù)的準確率是最高要求,因為只有構(gòu)建精準的二維數(shù)據(jù)世界,才能準確表達世界上的萬世萬物。我們大華在前幾年一直把每項指標做到最高的精度,以交通為例,在車輛抓拍、車輛識別、車型車系方面提升精度,在出口都會大幅度運用優(yōu)秀的特征,對車輛有完整的描述。
同時,我們會把真實商用化的算法做評測,確立所有的算法在業(yè)內(nèi)的領(lǐng)先性。同時,我們在人臉識別方面,去年也持續(xù)在提升,今年在NIST全球綜合排名第五。同時,現(xiàn)實生活中有很多跨年齡的問題,我們可以做到國內(nèi)第一。在整個評測過程中,我們是全球算法速度第二快的的公司,這也意味著這一套算法我們直接可以商用,這個是我們覺得在整個人臉進度中最重要的環(huán)節(jié)。
我們還在目標檢測、跟蹤、識別、場景分析方面在構(gòu)建二維、三維的數(shù)據(jù)能力。我們年初在market-1501測試集上準確率達到了96.7%的水平,這種性能提升真正幫助我們刻畫真實的數(shù)字世界。
所有人工智能都圍繞業(yè)務(wù)場景,正在加速業(yè)務(wù)場景的擴展,人工智能不僅僅是人臉和車輛等物體,而是能真實的表現(xiàn)真實世界,包括我們和零售做商品識別、貨架空置率識別,來提升對商品的認知。
在能源方面,大華有幾百種檢測手段,原來一個人爬山涉水去觀測每條線的輸油管道、燃氣線的安全事故,現(xiàn)在我們可以通過智能手段來快速檢測,實時預(yù)警。
還有動物的檢測,比如在養(yǎng)豬上的應(yīng)用,來做豬的計數(shù),確定豬有沒有丟失等等。
機場是比較封閉的,我們識別飛機下降到入位、移位以及??窟^程中廊橋的狀態(tài),安全車輛與飛機匹配的狀態(tài),通過自動化解決航站人工的痛點。
在社區(qū)里面,高空拋物是痛苦的事情,我們會做這個識別,精準識別誰家把東西拋出來,提升安全。
人工智能不只是處理圖像問題,還要處理很多感知數(shù)據(jù)的問題。舉個例子,這是普通的煙感,傳統(tǒng)煙感的誤報率會很高,比如受到水氣、蚊蟲的影響,還會受到煙和PM2.5的影響,都會影響它的準確率。我們通過人工智能的手段去分析它采集到的數(shù)據(jù)。真正落地之后,我們發(fā)現(xiàn)可以把誤報降低90%以上,實現(xiàn)精準的報警。
我們把人工智能利用在編解碼上,像H265、H266,我們通過AI賦能,可以把碼流壓低80%,用20%的帶寬(200多kb帶寬)可以傳輸原先需要4M編碼的性能。H266的研究中,我們發(fā)現(xiàn)同樣可以降低70%以上的碼流,這都是人工智能帶來的數(shù)字化改造。我們認為未來有更多的利用場景需要我們擴展,而且我們也在積極拓展各個行業(yè)的應(yīng)用。
人工智能離不開訓(xùn)練中心,實際上我們的工程師團隊也是希望我們的訓(xùn)練中心能夠?qū)崿F(xiàn)各個行業(yè)的愿望,他們把人工智能平臺取名于巨靈,源于阿拉丁神燈的燈神,希望可以達成我們的各種愿望。我們在想如何加速產(chǎn)業(yè)化落地,過往三年,大華建成了三地三中心的算力平臺,算力提升了20倍,每天在線任務(wù)數(shù)提升了40倍以上,滿足我們對行業(yè)場景的覆蓋和定制化,滿足場景需求。
在這里我們會想一個問題,是不是算力越大,不斷增加計算的算力可以幫助我們增加很多。我們認為算力增加是必然的,更重要的是中心除了算力訓(xùn)練和算法之外還有很多東西要做,比如現(xiàn)在有這么多芯片,算力芯片層出不窮,我們要做芯片適配,有很多應(yīng)用程序,需要做應(yīng)用場景的適配,這將需要很大的人力物力和時間解決這個問題,所以我們在人工智能平臺里面把芯片面向業(yè)務(wù)的集成部署作為我們的一部分。同時我們想這樣夠不夠?其實對于工程化是不夠的,因為作為產(chǎn)業(yè)化和商業(yè)化的公司,我們希望提供給客戶的每個算法都是可靠、高質(zhì)量的,能夠達到高性能要求的。所以,在我們的人工智能平臺里面加入了自動化測試模塊,每一個發(fā)布的算法經(jīng)過這個平臺發(fā)布之后,都經(jīng)過自動化測試導(dǎo)出結(jié)果,能夠快速告訴你這個算法版本的性能和質(zhì)量是否滿足要求,從而提供給最終用戶高質(zhì)量的性能產(chǎn)品。
那么如何在三維空間空間進行應(yīng)用呢?我們在二維空間做過交通業(yè)務(wù),比如布一個電子相機分析紅綠燈的狀態(tài),通過流量分析流量狀態(tài),通過結(jié)構(gòu)化數(shù)據(jù)分析路面的車和物。但是我們發(fā)現(xiàn)每部分都是斷層,都是單層看問題,所以我們構(gòu)建了空間的路網(wǎng),構(gòu)建了整個道路的全要素,這時候就可以做更多,因為可以從路網(wǎng)分析道路堵塞情況、跨區(qū)域紅綠燈情況,因此可以做全路面擁堵測試定位、全路面信號燈配適,自學(xué)對路網(wǎng)進行調(diào)整,以此達到最優(yōu)的通行效果。這是在三維空間進行人工智能分析給我們帶來的最大的優(yōu)勢。
關(guān)于人和人臉的識別,早期簡單的特征識別是不夠的,因為我們發(fā)現(xiàn)有時候人不會對著你走,有時候側(cè)著走,有時候背著走,那怎么辦?在第二代描述人的特征向量的時候,我們用了特征融合,人臉、人體融合的一體化特征模型。但是這樣還不夠,因為我們會碰到很多奇怪的問題,比如一個人今天走路,明天騎著電動車,今天是從可見光上面走過,到晚上可能是紅外光拍到的熱力成像,那怎么辦?我們做第三代人員特征描述的時候,引入靜態(tài)特征和動態(tài)特征融合的模型,通過人臉、人體、行走姿態(tài)、步態(tài)和標準行為動作的分析,構(gòu)建人的描述的特征,這也是通過三維數(shù)據(jù)的描述來形成更精準的定位,能夠描述清楚這個人是誰。
到四維空間更有意思,剛才講三維空間交通做了很多事情,到四維空間我們有很多時間參數(shù),我們可以看到過往一年、一個月、一周、每天的交通態(tài)勢。結(jié)合我們時域的分析,我們可以看到時間維度上各個因素對交通的影響,比如刮風(fēng)下雨、節(jié)假日,比如今天是“雙11”或者今天有什么活動,對道路可能有影響,交通因素中對我們最大的影響是我們可以做預(yù)測和決策。在軌道交通方面,我們可以對紅綠燈進行優(yōu)化,可以對路面基于活動的情況、基于每天的狀態(tài)做道路面的優(yōu)化,還可以對未來城市道路優(yōu)化產(chǎn)生價值,可以指導(dǎo)城市道路如何優(yōu)化,比如哪條十字路口非常擁堵,是不是要建高架,這是通過大數(shù)據(jù)分析可以得到的一些參考性建議。所以,到第四維數(shù)據(jù)的時候可以做更多預(yù)測、決策和評估的工作。
同時,我們認為數(shù)據(jù)在不斷升遷,計算力是非常之大的,因為到后面需要大量計算來滿足計算的要求和數(shù)據(jù)分析的要求。幸運的是,我們現(xiàn)在很多芯片出來了,有很多大算力的芯片,除了感知之外我們還可以提取特征。在邊緣側(cè),既能提特征,又能做空間分析。到了中心側(cè),我們可以做二維、三維、四維數(shù)據(jù)的分析,這時候我們可以做更多事情,因為我們有了更大的算力。
實際上我們還是得從業(yè)務(wù)出發(fā),在大量業(yè)務(wù)上要分析清楚到底用二維數(shù)據(jù)還是三維數(shù)據(jù)來做業(yè)務(wù)閉環(huán),所以要考慮網(wǎng)絡(luò)部署。隨著數(shù)據(jù)維度遷移,數(shù)據(jù)是大幅度濃縮的,從單點來看對網(wǎng)絡(luò)的要求下降,但是到四維數(shù)據(jù),要求的路數(shù)和要獲得的感知數(shù)據(jù)更多,所以網(wǎng)絡(luò)成本反過來是增加的。維度越高,網(wǎng)絡(luò)代價越高。所以,我們會根據(jù)業(yè)務(wù)來綜合部署,考量網(wǎng)絡(luò)和計算的分布,看到底如何形成最佳的計算網(wǎng)。我們認為未來每個系統(tǒng)都是一張全網(wǎng)計算的能力。
要建設(shè)這樣一張網(wǎng)就夠了嗎?從我們的時間來講,還是不夠。為什么?因為我們的用戶持續(xù)會發(fā)生系統(tǒng)升級、系統(tǒng)擴容、系統(tǒng)變更,這時候要求更多的是在網(wǎng)絡(luò)建設(shè)的時候要彈性適配、有靈活性,要適配未來業(yè)務(wù)需求的動力。我們在擴容的時候,我們增加產(chǎn)品是線性擴容,對當前的全網(wǎng)計算有了新的挑戰(zhàn)和要求。
在人工智能行業(yè)有很多優(yōu)秀的合作伙伴,對大華來說,我們希望以開放的心態(tài)和各位合作伙伴一起應(yīng)用我們的業(yè)務(wù)場景,我們提供人工智能提供大華的優(yōu)質(zhì)算法,希望跟合作伙伴互補,同時在智能端、算法倉庫也希望在算法上和行業(yè)合作伙伴互補,形成行業(yè)的應(yīng)用場景的競爭力,真正實現(xiàn)構(gòu)筑數(shù)據(jù)世界的真實性的能力。
剛剛介紹很多能力方面的優(yōu)勢,但實際上最終是由業(yè)務(wù)牽引整個數(shù)字世界,數(shù)字世界的價值閉環(huán)來自業(yè)務(wù)牽引。在交通、高鐵、機場等各個方面,要能幫助交通便利的出行;在秩序方面做很多違章類的檢測,本身是要提升城市管理運營的效率;環(huán)境方面我們做了煤氣、水電的檢測。雖然做到數(shù)字化解決這些問題,但是回到本質(zhì)問題,還是要解決客戶的問題,解決為生態(tài)建設(shè)服務(wù)的能力,最終數(shù)據(jù)要形成一個價值閉環(huán)。所以我們一直強調(diào),業(yè)務(wù)驅(qū)動通過數(shù)字化建設(shè)、數(shù)字世界搭建回歸到真實世界,通過數(shù)字世界改造幫助真實世界提升整體的運營效率。
在制造業(yè)、物流和零售有同樣的問題,在制造業(yè)通過智能化改造面向中國制造2025、工業(yè)4.0升級,通過自動化報表的產(chǎn)生提升工廠和工人運營效率。物流方面,通過人車場貨的匹配提供包裹的可追溯,物流車輛可以快速匹配。零售方面通過管理在線、消費在線、商品在線、服務(wù)在線提升商場運營效率,提升客戶滿意度和貨、場的匹配能力,這都是通過業(yè)務(wù)實踐用數(shù)字世界服務(wù)真實世界。