怎樣利用AI構(gòu)建數(shù)字世界

時間：2020-05-18 19:36:01

關(guān)鍵字： AI 人工智能芯片矩陣

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 數(shù)據(jù)世界是四維的：通過感知獲得一維數(shù)據(jù)，來觀測真實世界；第二維，通過人工智能對感知數(shù)據(jù)進行特征提取，真實地反映世界；第三維，隨著空間數(shù)據(jù)的融合，構(gòu)建空間矩陣，構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化

數(shù)據(jù)世界是四維的：通過感知獲得一維數(shù)據(jù)，來觀測真實世界；第二維，通過人工智能對感知數(shù)據(jù)進行特征提取，真實地反映世界；第三維，隨著空間數(shù)據(jù)的融合，構(gòu)建空間矩陣，構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化；第四維，則是全面計算的過程，通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣，充分描述和表達真實世界。

峰會邀請到了業(yè)內(nèi)極具代表性的14位業(yè)內(nèi)知名專家，世界頂尖人工智能科學(xué)家、芯片創(chuàng)業(yè)大牛、產(chǎn)業(yè)巨頭首席技術(shù)高管、明星投資人齊聚，為行業(yè)資深從業(yè)者們分享前瞻的技術(shù)研究與商業(yè)模式方法論。

在大會上午場，大華股份研發(fā)中心副總裁、先進技術(shù)研究院院長殷俊以《AI構(gòu)建數(shù)字世界的基礎(chǔ)》為主題發(fā)表精彩演講。

在殷俊看來，數(shù)據(jù)世界是四維的：通過感知獲得一維數(shù)據(jù)，來觀測真實世界；第二維，通過人工智能對感知數(shù)據(jù)進行特征提取，真實地反映世界；第三維，隨著空間數(shù)據(jù)的融合，構(gòu)建空間矩陣，構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化；第四維，則是全面計算的過程，通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣，充分描述和表達真實世界。

他表示，在二維世界里面，人臉、語音識別或者很多檢測識別真正構(gòu)筑了二維特征數(shù)據(jù)的空間，數(shù)據(jù)的準確率是最高要求。因為只有構(gòu)建精準的二維數(shù)據(jù)世界，才能準確表達世界上的萬世萬物。對行人的特征描述，則是典型的應(yīng)用三維數(shù)據(jù)來形成更精準的定位。四維空間內(nèi)，系統(tǒng)可以加入時域的分析，做更多預(yù)測、決策和評估的工作。

算力方面，殷俊認為，數(shù)據(jù)在不斷升遷，算力增加是必然的，往后更需要大算力芯片。而大算力的芯片除了感知之外，還可以在邊緣側(cè)提取特征和空間分析；到了中心側(cè)，能夠完成二維、三維、四維數(shù)據(jù)的分析。

同時他也強調(diào)，盡管隨著數(shù)據(jù)遷移，數(shù)據(jù)大幅度濃縮，從單點來看要求下降，但四維數(shù)據(jù)要求的路數(shù)和要獲得的感知數(shù)據(jù)更多，網(wǎng)絡(luò)成本反而增加。到越高維，網(wǎng)絡(luò)代價越高。所以，需要根據(jù)業(yè)務(wù)綜合部署，考量網(wǎng)絡(luò)和計算的分布，看到底如何形成最佳的計算網(wǎng)絡(luò)。

以下是殷俊的大會現(xiàn)場演講內(nèi)容，雷鋒網(wǎng)做了不改變原意的整理及編輯：

大家好，非常榮幸今天能夠代表大華為大家分享我們對AI的認識以及對AI的定位。

首先我提一個觀點：AI是構(gòu)建數(shù)字世界的基礎(chǔ)，那什么是數(shù)字世界，以及為什么數(shù)據(jù)會成為數(shù)字世界的必要條件？

首先我們來看一下AI做了什么事情。

其實我們正在構(gòu)筑一個數(shù)字世界，用數(shù)字化世界描述真實世界。實際上數(shù)字世界和真實世界有很大差異，真實世界中物質(zhì)由很多元素構(gòu)成，數(shù)據(jù)世界數(shù)據(jù)是唯一的元素，只有數(shù)據(jù)才能構(gòu)建我們的數(shù)字世界。

我們的數(shù)據(jù)世界如何構(gòu)建？在大華看來，我們構(gòu)建了四維的數(shù)字世界。首先，我們通過感知獲得一維感知數(shù)據(jù)，來觀測真實世界發(fā)生了什么事情。

第二維，通過人工智能對感知數(shù)據(jù)進行特征提取，真實地反映真實世界到底是什么東西，比如是一個人、一個人臉、一輛車。

在第三維世界，隨著空間數(shù)據(jù)的融合，我們構(gòu)建空間矩陣，構(gòu)建與真實場景業(yè)務(wù)有匹配的數(shù)據(jù)場景化。

第四維，我們認為是一個全面計算的過程，通過時空數(shù)據(jù)的維度來構(gòu)建時空矩陣，充分描述和表達真實世界到底發(fā)生什么事情、出現(xiàn)什么行為、出現(xiàn)什么事件。

這個過程中，我們用感知和物聯(lián)網(wǎng)技術(shù)構(gòu)建一維數(shù)據(jù)，用人工智能構(gòu)建第二維、第三維、第四維數(shù)據(jù)，而且不同維度都會進行數(shù)據(jù)檢索。隨著數(shù)據(jù)維度增多，數(shù)據(jù)的價值也會快速提升。以往我們看一個小時的數(shù)據(jù)，一維世界可能會消耗多達幾個G的存儲空間，到四維數(shù)據(jù)可以通過簡單描述告訴觀察者這段時間發(fā)生什么事情、觀測對象是什么，所以數(shù)據(jù)是高度濃縮的。這個過程中，我們消耗了大量計算能力。每一維數(shù)據(jù)升遷需要耗費很大計算力，這是AI真正幫助我們構(gòu)建的數(shù)字世界。

我們認為在二維世界里面，人臉、語音識別或者很多檢測識別真正構(gòu)筑了二維特征數(shù)據(jù)的空間。在這里，我們認為數(shù)據(jù)的準確率是最高要求，因為只有構(gòu)建精準的二維數(shù)據(jù)世界，才能準確表達世界上的萬世萬物。我們大華在前幾年一直把每項指標做到最高的精度，以交通為例，在車輛抓拍、車輛識別、車型車系方面提升精度，在出口都會大幅度運用優(yōu)秀的特征，對車輛有完整的描述。

同時，我們會把真實商用化的算法做評測，確立所有的算法在業(yè)內(nèi)的領(lǐng)先性。同時，我們在人臉識別方面，去年也持續(xù)在提升，今年在NIST全球綜合排名第五。同時，現(xiàn)實生活中有很多跨年齡的問題，我們可以做到國內(nèi)第一。在整個評測過程中，我們是全球算法速度第二快的的公司，這也意味著這一套算法我們直接可以商用，這個是我們覺得在整個人臉進度中最重要的環(huán)節(jié)。

我們還在目標檢測、跟蹤、識別、場景分析方面在構(gòu)建二維、三維的數(shù)據(jù)能力。我們年初在market-1501測試集上準確率達到了96.7%的水平，這種性能提升真正幫助我們刻畫真實的數(shù)字世界。

所有人工智能都圍繞業(yè)務(wù)場景，正在加速業(yè)務(wù)場景的擴展，人工智能不僅僅是人臉和車輛等物體，而是能真實的表現(xiàn)真實世界，包括我們和零售做商品識別、貨架空置率識別，來提升對商品的認知。

在能源方面，大華有幾百種檢測手段，原來一個人爬山涉水去觀測每條線的輸油管道、燃氣線的安全事故，現(xiàn)在我們可以通過智能手段來快速檢測，實時預(yù)警。

還有動物的檢測，比如在養(yǎng)豬上的應(yīng)用，來做豬的計數(shù)，確定豬有沒有丟失等等。

機場是比較封閉的，我們識別飛機下降到入位、移位以及?？窟^程中廊橋的狀態(tài)，安全車輛與飛機匹配的狀態(tài)，通過自動化解決航站人工的痛點。

在社區(qū)里面，高空拋物是痛苦的事情，我們會做這個識別，精準識別誰家把東西拋出來，提升安全。

人工智能不只是處理圖像問題，還要處理很多感知數(shù)據(jù)的問題。舉個例子，這是普通的煙感，傳統(tǒng)煙感的誤報率會很高，比如受到水氣、蚊蟲的影響，還會受到煙和PM2.5的影響，都會影響它的準確率。我們通過人工智能的手段去分析它采集到的數(shù)據(jù)。真正落地之后，我們發(fā)現(xiàn)可以把誤報降低90%以上，實現(xiàn)精準的報警。

我們把人工智能利用在編解碼上，像H265、H266，我們通過AI賦能，可以把碼流壓低80%，用20%的帶寬（200多kb帶寬）可以傳輸原先需要4M編碼的性能。H266的研究中，我們發(fā)現(xiàn)同樣可以降低70%以上的碼流，這都是人工智能帶來的數(shù)字化改造。我們認為未來有更多的利用場景需要我們擴展，而且我們也在積極拓展各個行業(yè)的應(yīng)用。

人工智能離不開訓(xùn)練中心，實際上我們的工程師團隊也是希望我們的訓(xùn)練中心能夠?qū)崿F(xiàn)各個行業(yè)的愿望，他們把人工智能平臺取名于巨靈，源于阿拉丁神燈的燈神，希望可以達成我們的各種愿望。我們在想如何加速產(chǎn)業(yè)化落地，過往三年，大華建成了三地三中心的算力平臺，算力提升了20倍，每天在線任務(wù)數(shù)提升了40倍以上，滿足我們對行業(yè)場景的覆蓋和定制化，滿足場景需求。

在這里我們會想一個問題，是不是算力越大，不斷增加計算的算力可以幫助我們增加很多。我們認為算力增加是必然的，更重要的是中心除了算力訓(xùn)練和算法之外還有很多東西要做，比如現(xiàn)在有這么多芯片，算力芯片層出不窮，我們要做芯片適配，有很多應(yīng)用程序，需要做應(yīng)用場景的適配，這將需要很大的人力物力和時間解決這個問題，所以我們在人工智能平臺里面把芯片面向業(yè)務(wù)的集成部署作為我們的一部分。同時我們想這樣夠不夠？其實對于工程化是不夠的，因為作為產(chǎn)業(yè)化和商業(yè)化的公司，我們希望提供給客戶的每個算法都是可靠、高質(zhì)量的，能夠達到高性能要求的。所以，在我們的人工智能平臺里面加入了自動化測試模塊，每一個發(fā)布的算法經(jīng)過這個平臺發(fā)布之后，都經(jīng)過自動化測試導(dǎo)出結(jié)果，能夠快速告訴你這個算法版本的性能和質(zhì)量是否滿足要求，從而提供給最終用戶高質(zhì)量的性能產(chǎn)品。

那么如何在三維空間空間進行應(yīng)用呢？我們在二維空間做過交通業(yè)務(wù)，比如布一個電子相機分析紅綠燈的狀態(tài)，通過流量分析流量狀態(tài)，通過結(jié)構(gòu)化數(shù)據(jù)分析路面的車和物。但是我們發(fā)現(xiàn)每部分都是斷層，都是單層看問題，所以我們構(gòu)建了空間的路網(wǎng)，構(gòu)建了整個道路的全要素，這時候就可以做更多，因為可以從路網(wǎng)分析道路堵塞情況、跨區(qū)域紅綠燈情況，因此可以做全路面擁堵測試定位、全路面信號燈配適，自學(xué)對路網(wǎng)進行調(diào)整，以此達到最優(yōu)的通行效果。這是在三維空間進行人工智能分析給我們帶來的最大的優(yōu)勢。

關(guān)于人和人臉的識別，早期簡單的特征識別是不夠的，因為我們發(fā)現(xiàn)有時候人不會對著你走，有時候側(cè)著走，有時候背著走，那怎么辦？在第二代描述人的特征向量的時候，我們用了特征融合，人臉、人體融合的一體化特征模型。但是這樣還不夠，因為我們會碰到很多奇怪的問題，比如一個人今天走路，明天騎著電動車，今天是從可見光上面走過，到晚上可能是紅外光拍到的熱力成像，那怎么辦？我們做第三代人員特征描述的時候，引入靜態(tài)特征和動態(tài)特征融合的模型，通過人臉、人體、行走姿態(tài)、步態(tài)和標準行為動作的分析，構(gòu)建人的描述的特征，這也是通過三維數(shù)據(jù)的描述來形成更精準的定位，能夠描述清楚這個人是誰。

到四維空間更有意思，剛才講三維空間交通做了很多事情，到四維空間我們有很多時間參數(shù)，我們可以看到過往一年、一個月、一周、每天的交通態(tài)勢。結(jié)合我們時域的分析，我們可以看到時間維度上各個因素對交通的影響，比如刮風(fēng)下雨、節(jié)假日，比如今天是“雙11”或者今天有什么活動，對道路可能有影響，交通因素中對我們最大的影響是我們可以做預(yù)測和決策。在軌道交通方面，我們可以對紅綠燈進行優(yōu)化，可以對路面基于活動的情況、基于每天的狀態(tài)做道路面的優(yōu)化，還可以對未來城市道路優(yōu)化產(chǎn)生價值，可以指導(dǎo)城市道路如何優(yōu)化，比如哪條十字路口非常擁堵，是不是要建高架，這是通過大數(shù)據(jù)分析可以得到的一些參考性建議。所以，到第四維數(shù)據(jù)的時候可以做更多預(yù)測、決策和評估的工作。

同時，我們認為數(shù)據(jù)在不斷升遷，計算力是非常之大的，因為到后面需要大量計算來滿足計算的要求和數(shù)據(jù)分析的要求。幸運的是，我們現(xiàn)在很多芯片出來了，有很多大算力的芯片，除了感知之外我們還可以提取特征。在邊緣側(cè)，既能提特征，又能做空間分析。到了中心側(cè)，我們可以做二維、三維、四維數(shù)據(jù)的分析，這時候我們可以做更多事情，因為我們有了更大的算力。

實際上我們還是得從業(yè)務(wù)出發(fā)，在大量業(yè)務(wù)上要分析清楚到底用二維數(shù)據(jù)還是三維數(shù)據(jù)來做業(yè)務(wù)閉環(huán)，所以要考慮網(wǎng)絡(luò)部署。隨著數(shù)據(jù)維度遷移，數(shù)據(jù)是大幅度濃縮的，從單點來看對網(wǎng)絡(luò)的要求下降，但是到四維數(shù)據(jù)，要求的路數(shù)和要獲得的感知數(shù)據(jù)更多，所以網(wǎng)絡(luò)成本反過來是增加的。維度越高，網(wǎng)絡(luò)代價越高。所以，我們會根據(jù)業(yè)務(wù)來綜合部署，考量網(wǎng)絡(luò)和計算的分布，看到底如何形成最佳的計算網(wǎng)。我們認為未來每個系統(tǒng)都是一張全網(wǎng)計算的能力。

要建設(shè)這樣一張網(wǎng)就夠了嗎？從我們的時間來講，還是不夠。為什么？因為我們的用戶持續(xù)會發(fā)生系統(tǒng)升級、系統(tǒng)擴容、系統(tǒng)變更，這時候要求更多的是在網(wǎng)絡(luò)建設(shè)的時候要彈性適配、有靈活性，要適配未來業(yè)務(wù)需求的動力。我們在擴容的時候，我們增加產(chǎn)品是線性擴容，對當前的全網(wǎng)計算有了新的挑戰(zhàn)和要求。

在人工智能行業(yè)有很多優(yōu)秀的合作伙伴，對大華來說，我們希望以開放的心態(tài)和各位合作伙伴一起應(yīng)用我們的業(yè)務(wù)場景，我們提供人工智能提供大華的優(yōu)質(zhì)算法，希望跟合作伙伴互補，同時在智能端、算法倉庫也希望在算法上和行業(yè)合作伙伴互補，形成行業(yè)的應(yīng)用場景的競爭力，真正實現(xiàn)構(gòu)筑數(shù)據(jù)世界的真實性的能力。

剛剛介紹很多能力方面的優(yōu)勢，但實際上最終是由業(yè)務(wù)牽引整個數(shù)字世界，數(shù)字世界的價值閉環(huán)來自業(yè)務(wù)牽引。在交通、高鐵、機場等各個方面，要能幫助交通便利的出行；在秩序方面做很多違章類的檢測，本身是要提升城市管理運營的效率；環(huán)境方面我們做了煤氣、水電的檢測。雖然做到數(shù)字化解決這些問題，但是回到本質(zhì)問題，還是要解決客戶的問題，解決為生態(tài)建設(shè)服務(wù)的能力，最終數(shù)據(jù)要形成一個價值閉環(huán)。所以我們一直強調(diào)，業(yè)務(wù)驅(qū)動通過數(shù)字化建設(shè)、數(shù)字世界搭建回歸到真實世界，通過數(shù)字世界改造幫助真實世界提升整體的運營效率。

在制造業(yè)、物流和零售有同樣的問題，在制造業(yè)通過智能化改造面向中國制造2025、工業(yè)4.0升級，通過自動化報表的產(chǎn)生提升工廠和工人運營效率。物流方面，通過人車場貨的匹配提供包裹的可追溯，物流車輛可以快速匹配。零售方面通過管理在線、消費在線、商品在線、服務(wù)在線提升商場運營效率，提升客戶滿意度和貨、場的匹配能力，這都是通過業(yè)務(wù)實踐用數(shù)字世界服務(wù)真實世界。