米文動力:我們不生產(chǎn)機(jī)器人,只為機(jī)器人提供”大腦“
上個月, “世界機(jī)器人大會”在北京亦莊召開,作為機(jī)器人行業(yè)最大盛會,眾多參展機(jī)器人讓人大飽眼福,也透露出了行業(yè)新風(fēng)向。除了前幾年常見的的掃地機(jī)器人、娛樂機(jī)器人、陪伴機(jī)器人等服務(wù)機(jī)器人之外,我們還看到了大量新興的配送機(jī)器人、巡檢機(jī)器人和工業(yè)機(jī)器人。
還注意到一家做嵌入式人工智能解決方案公司——“米文動力”,他們不生產(chǎn)機(jī)器人,主要提供機(jī)器人的“大腦”。米文動力告訴,服務(wù)機(jī)器人行業(yè)遇冷,如今配送、巡檢、工業(yè)機(jī)器人重新煥發(fā)活力,依賴著機(jī)器人底層技術(shù)能力和場景解決方案的升級,同時也提出了很多新的挑戰(zhàn)。
(米文動力CTO蘇?。?/p>
在大會后,特意拜訪了米文動力,與CTO蘇俊深入探討目前新興的機(jī)器人技術(shù)、解決方案和落地場景。
云端AI與嵌入式人工智能
據(jù)了解,米文動力成立于2015年,致力于提供一站式、端到端、軟硬件一體化的人工智能機(jī)器人整體解決方案,該方案以嵌入式人工智能超級計算機(jī)——米文大腦為核心主控,集成機(jī)器人必備的自主感知決策、自主定位及導(dǎo)航,為個人開發(fā)者、機(jī)器人廠商、傳統(tǒng)廠商提供不同程度的定制化方案,幫助他們輕松打造機(jī)器人。
2015年,機(jī)器人正火,很多人都涌進(jìn)來想要做機(jī)器人。
蘇俊告訴,2015年,機(jī)器人行業(yè)還處于最原始的時候,整個系統(tǒng)架構(gòu)還是第一代機(jī)器人的狀態(tài),主要形態(tài)是一個實(shí)時系統(tǒng)加上一個安卓操作系統(tǒng)。同時機(jī)器人行業(yè)產(chǎn)業(yè)鏈也不成熟,很多公司選擇全鏈條都自己做,把技術(shù)戰(zhàn)線拉得很長,導(dǎo)致整體技術(shù)發(fā)展緩慢。后來,行業(yè)里的人慢慢開始發(fā)現(xiàn),機(jī)器人系統(tǒng)很復(fù)雜,其實(shí)機(jī)器人公司應(yīng)該關(guān)注的是產(chǎn)品、市場和客戶,可以把底層的比較難的技術(shù)問題交給擅長的公司來做。
當(dāng)時,機(jī)器人還沒有一個嵌入式的智能控制平臺,人工智能的主要實(shí)現(xiàn)方式是云端AI,設(shè)備通過網(wǎng)絡(luò)將數(shù)據(jù)傳到云端,在云端計算后再將數(shù)據(jù)傳出,云端AI的算法準(zhǔn)確率高、算力強(qiáng),但是云端AI對機(jī)器人并不是最好的方案。機(jī)器人一般具備多種傳感器,需要在復(fù)雜多變的環(huán)境下做出實(shí)時響應(yīng),云端計算會帶來延遲和卡頓問題;同時,在家庭環(huán)境下,數(shù)據(jù)隱私尤為重要,需要家庭中的機(jī)器人在不聯(lián)網(wǎng)的狀態(tài)下也能正常運(yùn)行。機(jī)器人行業(yè)迫切需要在本地對較大數(shù)據(jù)量進(jìn)行實(shí)時處理和響應(yīng)。
在這一背景下,米文動力成立了。創(chuàng)始團(tuán)隊(duì)成員有多年英偉達(dá)GPU平臺的研發(fā)經(jīng)驗(yàn),他們在成立之初就定位為英偉達(dá)在GPU平臺的技術(shù)解決方案提供商,基于英偉達(dá)Jetson系列平臺來做嵌入式人工智能。
2016年4月,英偉達(dá)發(fā)布Jetson TX1嵌入式計算平臺,專為當(dāng)時熱門的AI人工智能產(chǎn)品化而生,Jetson TX1可為小型設(shè)備提供桌面級GPU的通用運(yùn)算性能,有助于新興的無人機(jī)、機(jī)器人、智能車載等初創(chuàng)企業(yè)的產(chǎn)品研發(fā)。作為英偉達(dá)的戰(zhàn)略合作伙伴,米文動力同臺展出了基于Jetson TX1的嵌入式人工智能計算機(jī)“米文大腦”,以及合作伙伴的機(jī)器人產(chǎn)品—— sDeno家用服務(wù)式機(jī)器人,其能在家庭中完成基本的管家型工作,如跟隨移動、動作交互等,另外可以利用Jetson TX1帶來的學(xué)習(xí)能力,學(xué)會用戶交給它的任務(wù)。
(米文大腦S2)
米文大腦是米文動力的核心產(chǎn)品,目前已經(jīng)迭代到第二代——米文大腦 S2,基于NVIDIA JETSON TX2。S2的尺寸為97 mm ×60 mm ×40mm ,與前一代米文大腦相比,體積縮小了約 30%。功能方面,S2 提供免費(fèi)的 Linux 層面的人體、物體相關(guān)算法的SDK,包括但不限于人臉檢測,身份識別,屬性識別,年齡識別、物體識別等。
蘇俊告訴,米文大腦S2從操作系統(tǒng)層到算法層都針對嵌入式硬件做了大量的深度優(yōu)化。嵌入式人工智能和云端AI有很大不同,云端AI的難點(diǎn)主要是算法,而在終端實(shí)現(xiàn)AI則會發(fā)現(xiàn)軟件只是最上層,基石其實(shí)是整個系統(tǒng)和硬件,如果基石不穩(wěn)的話,雖然軟件可能是最能出彩的地方,但依然沒有辦法發(fā)揮出來。在蘇俊看來,米文動力是軟件和硬件都擅長的團(tuán)隊(duì),突出優(yōu)點(diǎn)是對整個系統(tǒng)的理解和整個GPU優(yōu)化能力。
米文大腦 S2的核心技術(shù)分為硬件和軟件兩方面。硬件方面,因?yàn)樯疃葘W(xué)習(xí)終端應(yīng)用環(huán)境各不相同,所以從整個硬件設(shè)計上要比消費(fèi)類電子產(chǎn)品要求更高,米文大腦的接口的保護(hù)、電路設(shè)計都要以工業(yè)標(biāo)準(zhǔn)來要求自己。軟件方面,最突出的是針對GPU的特性對大家現(xiàn)在比較常用的算法進(jìn)行很強(qiáng)的加速,米文大腦 S2 能將 Mobilenet SSD 的性能提升5倍以上,原來不做任何工作的話,在硬件上只能跑到7-8次/秒,但當(dāng)做了核心優(yōu)化時,速度能到40次-50次/秒。
此外,米文動力會根據(jù)不同行業(yè)提供完整的解決方案。比如機(jī)器人行業(yè)對多個傳感器的時鐘同步有非常高要求,傳統(tǒng)方式只能另外再拿一個硬件做時鐘同步,并且把它的數(shù)據(jù)接入到另外計算單元里面。米文動力在一個設(shè)備里實(shí)現(xiàn)了這些功能,集成度非常高。
室內(nèi)機(jī)器人與室外機(jī)器人
雖然市面上已經(jīng)有這么多的機(jī)器人,但是與已經(jīng)成熟的單點(diǎn)的人工智能技術(shù),比如計算機(jī)視覺、語音識別相比,機(jī)器人才剛剛蹣跚學(xué)步。
這對米文動力這樣致力于提供機(jī)器人底層技術(shù)的公司來說,最明顯的挑戰(zhàn)就是,他們不能只是提供一個固定的硬件,他們還需要根據(jù)不同的新興場景,定制不同的落地方案,為機(jī)器人集成多種能力。
視覺是機(jī)器人最重要的感知系統(tǒng),也是每個機(jī)器人必備的功能。米文動力自己研發(fā)了一套基于深度神經(jīng)網(wǎng)絡(luò)的智能視覺系統(tǒng)架構(gòu),能實(shí)現(xiàn)人臉識別、人臉追蹤、物體識別、動作識別、手勢識別等功能。
目前,這些CV技術(shù)已經(jīng)成熟,為何還需要米文動力重新研發(fā)呢?蘇俊解釋到,機(jī)器人的視覺系統(tǒng)很復(fù)雜,最后實(shí)現(xiàn)出來的功能不是單個算法組成的,而是一套算法系統(tǒng),并且集合一些非算法的邏輯來完成整個功能。直接采用現(xiàn)有的算法,達(dá)不到整個功能的要求,并且這個新的算法在很多場景已經(jīng)作出了一些限制,沒有辦法滿足機(jī)器人特定場景的一些需要。
這兩年,機(jī)器人的落地場景也發(fā)生了一些變化。今年世界機(jī)器人大會上的服務(wù)機(jī)器人數(shù)量較此前大大減少,大家逐漸從純交互的服務(wù)機(jī)器人上轉(zhuǎn)到帶有一些功能性的機(jī)器人和落地場景,例如米文動力現(xiàn)在主攻的配送機(jī)器人、巡檢機(jī)器人、工業(yè)機(jī)器人、工業(yè)視覺檢測、視頻智能分析。
視頻智能分析則是泛化的機(jī)器人概念,可以利用米文大腦的強(qiáng)大計算能力和低成本去做一些純視覺的工作。
配送機(jī)器人、巡檢機(jī)器人都是室外機(jī)器人,對核心計算和整個系統(tǒng)可靠性要求很高。室內(nèi)機(jī)器人和室外機(jī)器人的導(dǎo)航算法、傳感器也都不一樣,室內(nèi)會用單鏡頭激光器+攝像頭,在室外更多會使用多鏡頭激光器+攝像頭。另外傳感器接入方面,室外的會用一些傳統(tǒng)的監(jiān)控用的攝像頭,室內(nèi)會用USB的攝像頭或其他密閉接口的攝像頭。巡檢機(jī)器人也可能工作在室內(nèi),也可能工作在室外,這個時候同一種巡檢機(jī)器人也可能有不同的方案。
不過現(xiàn)在室外機(jī)器人的方案還不夠成熟。京東或菜鳥都有在做室外的配送機(jī)器人,并且做的時間比較長,聲量比較大但銷量并沒有到一定程度,為什么?其實(shí)室外機(jī)器人有一個很大的痛點(diǎn),其對硬件的要求接近于自動駕駛,外界環(huán)境更復(fù)雜,這就要求整個內(nèi)部系統(tǒng)設(shè)計需要做一個非常特殊的設(shè)計,看上去不太起眼的抗震性設(shè)計、車危及人的設(shè)計,成了目前這個領(lǐng)域更往前走一步的阻礙。
米文動力的室外機(jī)器人方案場景需要2個米文大腦S2。據(jù)蘇俊透露,米文動力也正在研發(fā)基于英偉達(dá)下一代Xavier計算核心的第三代產(chǎn)品米文大腦Apex,產(chǎn)品的計算能力相當(dāng)于第二代10-30倍,是非常適合室外場景的一個核心控制單元,能夠解決以上提到室外機(jī)器人面臨的問題。
AI芯片與通用GPU
人工智能對算力、算法要求很高,很多人工智能公司都在自研芯片。2018年,語音技術(shù)公司,包括科大訊飛、云知聲、思必馳、出門問問等都在做語音AI芯片,期待以專用芯片來解決AI算法和算力上的瓶頸。編輯好奇,AI芯片方案是否會比米文大腦利用通用GPU方案更適合機(jī)器人呢?
蘇俊告訴,目前很多做產(chǎn)品的公司去做芯片,方向上是好的,因?yàn)楫a(chǎn)品公司對業(yè)務(wù)場景理解最深刻,能直接體會到現(xiàn)有的芯片的不足,當(dāng)產(chǎn)品達(dá)到一定的量的時候,他們會選擇自己去做芯片,一方面降低成本,另一方面更符合自己的需要。通常去做一款芯片的話,起碼產(chǎn)品要有千萬級別的量,但機(jī)器人離這個數(shù)量還差得非常遠(yuǎn)。所以現(xiàn)在的機(jī)器人公司還沒有必要去做自己的AI芯片這些方面。
機(jī)器人其實(shí)需要的是一個更加強(qiáng)的計算能力的芯片,目前大部分AI芯片為了平衡功耗和它作為一個后入者切入,目標(biāo)瞄向一些功耗和計算平衡的方向,這個方向其實(shí)并不是機(jī)器人方向需要的。另外機(jī)器人上面需要的算法非常多,所以現(xiàn)在更需要的是計算能力比較強(qiáng)的一個接近通用計算的平臺。自動駕駛需要有一個計算能力很強(qiáng)的核心能力,但不一定需要是一個專用AI芯片的概念。特斯拉這樣的公司依然使用基于英偉達(dá)的Hardware 2.5核心硬件,依然是通用計算的平臺。
在研發(fā)成本方面,如果要采用AI專用芯片,需要學(xué)習(xí)各自底層的語言與工具鏈,研發(fā)成本比較高。而GPU最近十幾年的時間在并行計算整個生態(tài)里,并且開放了像CUDA這樣一些工具,在工程師資源上有了很大的積累,意味著各個產(chǎn)品公司在嵌入式GPU上進(jìn)行開發(fā)的難度和資金投入會遠(yuǎn)遠(yuǎn)低于用一個新的AI芯片。
綜合這幾個因素,蘇俊認(rèn)為現(xiàn)在的嵌入式GPU更加適合機(jī)器人這種形態(tài)的,而且它可能比較難遇到特別強(qiáng)的競爭者。
在采訪的最后,蘇俊也談到,人工智能時代是技術(shù)創(chuàng)業(yè)的時代,與互聯(lián)網(wǎng)靠流量紅利創(chuàng)業(yè)已經(jīng)截然不同。AI的數(shù)據(jù)、算力、算法對硬件和軟件都提出了同等強(qiáng)烈的要求,近來很多公司開始AI公司做芯片、做服務(wù)器,也是需要提高自己的計算力、降低成本,同時以硬件作為通道去占領(lǐng)市場。