硬件的未來(lái)在AI、AI的未來(lái)在材料
掃描二維碼
隨時(shí)隨地手機(jī)看文章
由于,人工智能(AI)擔(dān)負(fù)工作與目前大多數(shù)計(jì)算機(jī)的運(yùn)算工作有些不同。然而,AI隱含著分析預(yù)測(cè)、推理、直觀(guān)的能力與功能。實(shí)時(shí)是最有創(chuàng)意的機(jī)器學(xué)習(xí)算法也受到現(xiàn)有機(jī)器硬件能力的束縛。因此,若要在AI方面取得長(zhǎng)足進(jìn)步,我們必須在硬件上進(jìn)行改變,或是半導(dǎo)體材料上進(jìn)行突破。演變從GPU開(kāi)始,引入模擬設(shè)備(analog devices),然后演變成為具容錯(cuò)性量子計(jì)算機(jī)(fault tolerant quantum computers)。
現(xiàn)在從大規(guī)模分布式深度學(xué)習(xí)算法應(yīng)用于圖形處理器(GPU)開(kāi)始將高速移動(dòng)的數(shù)據(jù),達(dá)到最終理解圖像和聲音。DDL算法對(duì)視頻和音頻數(shù)據(jù)進(jìn)行訓(xùn)練,GPU越多表示學(xué)習(xí)速度越快。目前,IBM創(chuàng)下紀(jì)錄:隨著更多GPU加入能提升達(dá)到95%效率,就能識(shí)別750萬(wàn)個(gè)圖像達(dá)到33.8%,使用256個(gè)GPU 于64個(gè)Minsky電源系統(tǒng)上。
自2009年以來(lái),隨著GPU模型訓(xùn)練從視頻游戲圖形加速器轉(zhuǎn)向深度學(xué)習(xí),使分布式深度學(xué)習(xí)每年以約2.5倍的速度發(fā)展。所以IBM曾于2017年IEEE國(guó)際電子設(shè)備會(huì)議(2017 IEEE International Electron Devices Meeting)針對(duì)應(yīng)用材料發(fā)表Semiconductor Futurescapes: New Technologies, New Solutions,談到需要開(kāi)發(fā)哪些技術(shù)才能延續(xù)這種進(jìn)步速度并超越GPU?
如何超越GPU
IBM研究公司認(rèn)為,GPU的轉(zhuǎn)變分為三個(gè)階段進(jìn)行:
1、首先將在短期內(nèi)利用GPU和傳統(tǒng)的CMOS構(gòu)建新的加速器以繼續(xù)進(jìn)行;
2、其次將尋找利用低精密度和模擬設(shè)備(analog devices)來(lái)進(jìn)一步降低功率和提高性能的方法;
3、然后進(jìn)入量子計(jì)算時(shí)代,它可是一個(gè)機(jī)會(huì),能提供全新的方法。
在CMOS上的加速器還有很多工作要做,因?yàn)闄C(jī)器學(xué)習(xí)模型可以容忍不精確的計(jì)算。正因?yàn)?ldquo;學(xué)習(xí)”模型可以借助錯(cuò)誤學(xué)習(xí)而發(fā)揮作用,然而,在銀行交易是無(wú)法容忍有一些許的錯(cuò)誤。預(yù)估,精準(zhǔn)運(yùn)算快速的趨勢(shì),到2022年每年以2.5倍在提高。所以,我們還有五年時(shí)間來(lái)突破模擬設(shè)備(analog devices),將數(shù)據(jù)移入和移出內(nèi)存以降低深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。因此,analog devices尋找可以結(jié)合內(nèi)存和運(yùn)算,對(duì)于類(lèi)神經(jīng)演算的進(jìn)展將是非常重要的。
類(lèi)神經(jīng)演算如同模擬腦細(xì)胞。神經(jīng)元(neurons) 結(jié)構(gòu)相互連接以低功率訊號(hào)突破von-Neumann的來(lái)回瓶頸(von-Neumann’s back-and-forth bottleneck),使這些訊號(hào)直接在神經(jīng)元之間傳遞,以實(shí)現(xiàn)更高效的計(jì)算。美國(guó)空軍研究實(shí)驗(yàn)室正在測(cè)試IBM TrueNorth神經(jīng)突觸系統(tǒng)的64芯片數(shù)組,專(zhuān)為深度神經(jīng)網(wǎng)絡(luò)推理和挖掘信息而設(shè)計(jì)。該系統(tǒng)使用標(biāo)準(zhǔn)CMOS,但僅消耗10瓦的能量來(lái)驅(qū)動(dòng)其6400萬(wàn)個(gè)神經(jīng)元和160億個(gè)突觸。
但相變化內(nèi)存(phase change memory)是下一代內(nèi)存材料,可能是針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化的首款仿真器件。
進(jìn)入量子時(shí)代 (quantum)
據(jù)IBM公司的研究論文,在Nature Quantum Information中展示了機(jī)器學(xué)習(xí)中量子的優(yōu)勢(shì)證明(“Demonstration of quantum advantage in machine learning”),展示了只有五個(gè)超導(dǎo)量子位處理器,量子運(yùn)算能夠穩(wěn)定減少達(dá)100倍運(yùn)算步驟,并且比非量子運(yùn)算更能容忍干擾的信息。
IBM Q的商業(yè)系統(tǒng)現(xiàn)在有20個(gè)量子位,并且原型50個(gè)量子位設(shè)備正在運(yùn)行。它的平均時(shí)間為90μs,也是以前系統(tǒng)的兩倍。但是容錯(cuò)系統(tǒng)在今天的機(jī)器上顯示出明顯的量子優(yōu)勢(shì)。同時(shí),試驗(yàn)新材料(如銅相通的替代品)是關(guān)鍵 - IBM及其合作伙伴在IEDM上推出的其他關(guān)鍵芯片改進(jìn),以推進(jìn)所有運(yùn)算平臺(tái),從von Neumann到類(lèi)神經(jīng)及量子。
解決處理器到儲(chǔ)存器的連接和帶寬瓶頸,將為AI帶來(lái)新的儲(chǔ)存器架構(gòu),最終可能導(dǎo)致邏輯和儲(chǔ)存器制造過(guò)程技術(shù)之間的融合。IBM的TrueNorth推理芯片就是這種新架構(gòu)的一個(gè)例子,其中每個(gè)神經(jīng)元都可以存取自己的本地儲(chǔ)存器,并且不需要脫機(jī)存取儲(chǔ)存器。
借助訓(xùn)練和推理形式的AI運(yùn)算,必須推向邊緣裝置上(edge devices),例如:手機(jī)、智能手表等。因此,這將興起由計(jì)算設(shè)備組成的網(wǎng)絡(luò)系統(tǒng)。大多數(shù)這樣的邊緣裝置會(huì)受到功率和成本的限制,所以他們的計(jì)算需求可能只能透過(guò)高度優(yōu)化的ASIC來(lái)滿(mǎn)足?,F(xiàn)在,傳統(tǒng)無(wú)晶圓廠(chǎng)半導(dǎo)體公司是否有能力提供這類(lèi)型的ASIC或是否由AI芯片新創(chuàng)公司例如云端服務(wù)提供商,由誰(shuí)主導(dǎo)目前還為時(shí)過(guò)早。
備注:*馮諾伊曼架構(gòu)(von Neumann bottleneck):是一種將程序指令內(nèi)存和數(shù)據(jù)存儲(chǔ)器合并在一起的計(jì)算機(jī)設(shè)計(jì)概念架構(gòu),因此也隱約指出將儲(chǔ)存裝置與中央處理器分開(kāi)的概念。在CPU與內(nèi)存之間的流量(數(shù)據(jù)傳輸率)與內(nèi)存的容量相比起來(lái)相當(dāng)小,在現(xiàn)代計(jì)算機(jī)中,流量與CPU的工作效率相比之下非常小。當(dāng)CPU需要在巨大的數(shù)據(jù)上執(zhí)行一些簡(jiǎn)單指令時(shí),數(shù)據(jù)流量就成了整體效率非常嚴(yán)重的限制,CPU將會(huì)在數(shù)據(jù)輸入或輸出內(nèi)存時(shí)閑置。由于CPU速度遠(yuǎn)大于內(nèi)存讀寫(xiě)速率,因此瓶頸問(wèn)題越來(lái)越嚴(yán)重。