Prodigy T16128:全球首顆通用處理器現(xiàn)世,絕絕子!!
處理器將是下述內(nèi)容的主要介紹對象,通過這篇文章,小編希望大家可以對Tachyum推出的處理器的相關(guān)情況以及信息有所認識和了解,詳細內(nèi)容如下。
2016年成立的硅谷芯片公司Tachyum近日發(fā)布了一顆神奇的處理器,擁有超多核心、超高頻率,功耗卻非常低。
這顆處理器名為“Prodigy T16128”,號稱全球第一顆“通用處理器”(universal processor),在單一硅片內(nèi)集成了通用處理器、HPC高性能計算、AI人工智能、DML深度機器學(xué)習、可解釋人工智能(Explainable AI)、生物人工智能(Bio AI)等不同模塊,可簡化編程模型和環(huán)境。
它擁有多達128個核心,64位,亂序執(zhí)行,每時鐘周期4個指令,每個核心有兩個1024位矢量單元、一個4096位矩陣單元,支持虛擬化和高級RAS。
具體架構(gòu)沒披露,不知道是ARM、MIPS還是自研,但強調(diào)除了原生指令集,也可以跑x86、ARM、RISC-V,簡直全能。
更驚人的是頻率,可以輕松超過5GHz,最高達到5.7GHz。
官方宣稱HPC算力90TFlops(每秒90萬億次),AI訓(xùn)練和推理算力高達12PFlops(每秒1.2億億次),相當于NVIDIA A100的2.4倍,并支持各種數(shù)據(jù)類型如FP64、FP32、TF32、BF16、Int8、FP8、TAI。
緩存具備64KB一級數(shù)據(jù)、64KB一級指令、128MB二三級,都支持ECC。
內(nèi)存支持16通道的DDR5,最高頻率7200MHz,單路最大容量8TB。
擴展鏈接支持64條PCIe 5.0,還有兩個400G以太網(wǎng)接口。
制造工藝是5nm(估計臺積電),64×84mm FCLGA封裝,不算很龐大。
它還支持雙路、四路并行,四路的話就是512核心、32TB DDR5內(nèi)存、256條PCIe 5.0。
官方宣稱,該處理器性能優(yōu)于Intel至強(沒有具體對比型號),但功耗僅有十分之一,單位性能售價也只有三分之一。
如果不需要128核心,同時也會有64核心的T864、32核心的T832不同版本,其他規(guī)格也有所簡化。
Tachyum 將 Prodigy 稱為世界上第一個“通用處理器”,并表示它從一開始就被設(shè)計為能夠運行眾多世界上最密集的計算應(yīng)用程序的多用途 CPU。Prodigy 不僅在單個芯片上處理所有這些不同的任務(wù),而且它的功耗預(yù)算比傳統(tǒng)硬件低10 倍,成本只有三分之一。
Tachyum 大膽宣稱 Prodigy 超級計算機芯片的性能是市場上英特爾最快的 Xeon芯片的四倍,在高性能計算應(yīng)用中的原始性能是Nvidia 的 H100的三倍。同時,能效提高 10 倍。
Tachyum 表示,為了在單核架構(gòu)中創(chuàng)造如此令人印象深刻的性能,它從頭開始構(gòu)建了具有矩陣和矢量處理能力的 Prodigy,而不是事后才考慮它們。Prodigy 支持一系列數(shù)據(jù)類型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI,所有這些都來自各個 CPU 內(nèi)核本身。
Prodigy 處理器在 2023 年問世時可能會改變游戲規(guī)則。AMD、英特爾和 Nvidia 的最新服務(wù)器硬件都依賴于單個硬件——即使在單個 CPU 或 GPU 中——來執(zhí)行這些不同的工作負載。這方面的一個例子是 Nvidia 的 RTX 系列 GPU ,它需要專用的機器學(xué)習 Tensor 核心才能讓 AI 工作,而專用的 RT 核心則需要用于光線追蹤應(yīng)用程序。
另一方面,Prodigy 將能夠在單個內(nèi)核上運行 光線追蹤 和 AI 應(yīng)用程序,并且不需要將數(shù)據(jù)轉(zhuǎn)移到微處理器內(nèi)部的另一個芯片上。
在單個芯片內(nèi)運行所有這些不同的 HPC 工作負載可能會極大地改變服務(wù)器格局:公司將能夠?qū)⒏嘈酒虬椒?wù)器場中,同時降低功耗和冷卻。
Prodigy T16128 采用未知來源的 5nm 工藝技術(shù)運行,并在非常小的(就其提供的功率而言)64 mm x 84mm FCLGA 封裝內(nèi)運行。
Tachyum 表示,在 HPC 工作負載方面,該芯片能夠執(zhí)行12 AI PetaFLOPS 和 90 TeraFLOPS。Prodigy芯片還可以運行適用于 x86、ARM、RISC-V 和 ISA 的二進制文件。從某種角度來看,單個 Nvidia A100 只能實現(xiàn) 5 AI PetaFLOPS。
每個內(nèi)核特別能夠執(zhí)行 2 個 1024 位向量單元、4096 位矩陣運算和每個時鐘 4 個亂序指令。還支持虛擬化和高級 RAS。該芯片還包括超過 128MB 的具有糾錯功能的 L2+L3 高速緩存。為了滿足其所有內(nèi)核的需求,該芯片配備了 16 個 DDR5 內(nèi)存控制器,額定速度高達 7200MT/s,每個插槽的最大容量為 8TB。
T16128 是 Tachyum Prodigy 系列中的旗艦型號,產(chǎn)品堆棧中的中端和入門級插槽分別由 64 核 T864 和 32 核 T832填充。生產(chǎn)將于2023 年開始,因此我們應(yīng)該會在明年某個時候看到這些芯片的實際基準。
以上便是小編此次想要和大家共同分享的內(nèi)容,如果你對本文內(nèi)容感到滿意,不妨持續(xù)關(guān)注我們網(wǎng)站喲。最后,十分感謝大家的閱讀,have a nice day!