當前位置:首頁 > 公眾號精選 > AI科技大本營
[導讀]編譯|禾木木出品|?AI科技大本營(ID:rgznai100)微軟和英偉達聯手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。微軟和英偉達宣布,他們聯合推出迄今為止最大和最強的人工智能驅動的語言模型:Megatron-Turing...

微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大


編譯 | 禾木木


出品 | AI科技大本營(ID:rgznai100)



微軟英偉達聯手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。

微軟和英偉達宣布,他們聯合推出迄今為止最大和最強的人工智能驅動的語言模型:Megatron-Turing(MT-NLP)。從公開披露的角度來看,MT-NLP 應該是現存最大的公共模型。在訓練過程一共使用了 4480 塊英偉達 A100 GPU ,作為兩家公司 Turing NLG 17B 和 Megatron-LM 模型的繼承者,MT-NLP 包含5300億個參數,在一系列廣泛的自然語言任務中實現了無與倫比的準確性,例如:
  • 完成預測
  • 閱讀理解
  • 常識論證
  • 自然語言推理
  • 詞義消歧


微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大



大規(guī)模語言模型

近年來,自然語言處理 (NLP) 中基于 Transformer 的語言模型在大規(guī)模計算、大型數據集以及用于訓練這些模型的高級算法和軟件的推動下推動了快速發(fā)展。具有大量參數、更多數據和更多訓練時間的語言模型可以獲得更豐富、更細致的語言理解。因此,它們可以很好地概括為有效的零樣本(zero-shot)或少樣本(few-shot)學習器,在許多 NLP 任務和數據集上具有很高的準確性。NLP 領域的任務包括摘要、自動對話生成、翻譯、語義搜索以及代碼自動生成等。當前,SOTA NLP 模型中的參數數量呈指數增長,如下圖 1 所示。微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大圖 1. SOTA NLP 模型大小隨時間變化的趨勢然而,訓練此類模型具有挑戰(zhàn)性,主要是以下兩個原因:
  • 即使是最大的 GPU,也不再可能在內存中擬合這些模型的參數。
  • 如果不特別注意優(yōu)化算法、軟件和硬件堆棧,則所需的大量計算操作可能會導致不切實際的長訓練時間。
AI 領域的大量創(chuàng)新和突破使訓練 MT-NLG 變得可行。例如,在英偉達和微軟合作的一個項目中,研究者們通過將最先進的 GPU 加速訓練基礎設施與尖端的分布式學習軟件堆棧進行融合,實現了前所未有的訓練效率。用數千億的 token 構建了高質量的自然語言訓練語料庫,并開發(fā)了提高優(yōu)化效率和穩(wěn)定性的解決方案。下面,將詳細介紹該研究的各個方面以及該方法的結果。


微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大


大規(guī)模培訓基礎設施

在 英偉達 A100 Tensor Core GPU 和 HDR InfiniBand 網絡的支持下,NVIDIA Selene 和 Microsoft Azure NDv4 等最先進的超級計算集群具有足夠的計算能力,可以在合理的時間范圍內訓練具有數萬億個參數的模型。然而,要充分發(fā)揮這些超級計算機的潛力,需要在數千個 GPU 之間實現并行性,在內存和計算上都高效且可擴展。然而,現有的并行策略(例如數據、pipeline 或 tensor-slicing)在內存和計算效率方面存在以下權衡,無法用于訓練這種規(guī)模的模型:
  • 數據并行實現了良好的計算效率,但它復制了模型狀態(tài)并且無法利用聚合分布式內存。
  • tensor-slicing 需要 GPU 之間的大量通信,所以單個節(jié)點以外的計算效率受限,使得高帶寬 NVLink 不可用。
  • pipeline 并行性可以跨節(jié)點有效擴展。然而,為了提高計算效率,它需要大批量、粗粒度的并行和完美的負載平衡,這在規(guī)模上是不可能的。



軟件設計

通過英偉達 Megatron-LM 和微軟 DeepSpeed 之間的合作,創(chuàng)建了一個高效且可擴展的 3D 并行系統(tǒng),能夠將數據、pipeline 和 tensor-slicing 的并行性結合在一起來應對這些挑戰(zhàn)。通過結合 pipeline 和 tensor-slicing 并行性,研究者們可以在它們最有效的范圍內操作它們。更具體地說,該系統(tǒng)使用來自 Megatron-LM 的 tensor-slicing 來擴展節(jié)點內的模型,并使用來自 DeepSpeed 的 pipeline 并行性來跨節(jié)點擴展模型。例如,對于 5300 億模型,每個模型副本(replica)跨越 280 個英偉達 A100 GPU,具有節(jié)點內的 8 路 tensor-slicing 和跨節(jié)點的 35 路 pipeline 并行性。然后,我們使用 DeepSpeed 的數據并行性進一步擴展到數千個 GPU。



硬件系統(tǒng)

模型訓練是在基于英偉達 DGX SuperPOD 的 Selene 超級計算機上以混合精度完成的,該超級計算機由 560 個 DGX A100 服務器提供支持,這些服務器以完整的胖樹配置與 HDR InfiniBand 聯網。每個 DGX A100 有 8 個英偉達 A100 80GB Tensor Core GPU,并通過 NVLink 和 NVSwitch 相互完全連接。微軟為 Azure NDv4 云超級計算機使用了類似的參考架構。



系統(tǒng)吞吐量

我們考慮了我們的系統(tǒng)在 Selene 上的 280、350 和 420 DGX A100 服務器上,批量大小為 1920 的 5300 億參數模型的端到端吞吐量。研究者們觀察到的迭代時間分別為 60.1、50.2 和 44.4 秒。這些分別對應于每個 GPU 126、121 和 113 teraFLOP/s。

訓練數據集和模型配置

研究者們使用了 Transformer 解碼器的架構,它是一個從左到右生成的基于 Transformer 的語言模型,由 5300 億個參數組成。層數、隱藏維度和注意力頭分別為 105、20480 和 128。基于開源數據集集合 The Pile,研究者構建了訓練數據集。首先,從 The Pile 中選擇了相對質量最高的數據集子集(圖 2 中的前 11 行)。然后,按照與用于生成 Pile-CC 的方法類似的方法,下載并過濾了兩個最近的 Common Crawl (CC) 快照。并對 CC 數據采取的步驟包括從原始 HTML 文件中提取文本、使用在高質量數據上訓練的分類器對提取的文檔進行評分,以及根據評分過濾文檔。在構建訓練數據集時,文檔去重是必要的,因為相同的內容可以存在于不同數據集的多個文檔中。研究者們使用 min-hash LSH 在文檔級別使用模糊重復數據刪除過程來計算稀疏文檔圖和其中的連接組件以識別重復文檔。然后,在從每個連接組件的重復文檔中選擇代表性文檔時,根據數據集的質量使用優(yōu)先級順序。最后,使用基于 n-gram 的過濾從訓練數據集中刪除下游任務數據以避免污染。最終的訓練集包括 15 個數據集,總共包含 3390 億個 token。在訓練期間,研究者根據圖 2 中給出的可變采樣權重將數據集混合到異構批次中,重點放在更高質量的數據集上,我在 2700 億個 token 上訓練了模型。
Dataset Tokens (billions) Weights (%) Epochs
Books3 25.7 14.3 1.5
OpenWebText2 14.8 19.3 3.6
Stack Exchange 11.6 5.7 1.4
PubMed Abstracts 4.4 2.9 1.8
Wikipedia 4.2 4.8 3.2
Gutenberg (PG-19) 2.7 0.9 0.9
BookCorpus2 1.5 1.0 1.8
NIH ExPorter 0.3 0.2 1.8
Pile-CC 49.8 9.4 0.5
ArXiv 20.8 1.4 0.2
GitHub 24.3 1.6 0.2
CC-2020-50 68.7 13.0 0.5
CC-2021-04 82.6 15.7 0.5
RealNews 21.9 9.0 1.1
CC-Stories 5.3 0.9 0.5
圖2:用于訓練 MT-NLG 模型的數據集。


微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大


訓練結果和成就

近期語言模型 (LM) 方面的工作表明,強大的預訓練模型通常可以在不進行微調的情況下,在廣泛的 NLP 任務中具有競爭力。為了了解擴大 LM 如何增強其零樣本或少樣本學習能力,研究者評估了 MT-NLG,并證明它在多個類別的 NLP 任務中建立了新的 SOTA。為確保評估的全面性,我們選擇了跨越五個不同領域的八項任務:
  • 在文本預測任務 LAMBADA 中,模型預測給定段落的最后一個詞。
  • 在閱讀理解任務 RACE-h 和 BoolQ 中,模型根據給定的段落生成問題的答案。
  • 在常識推理任務 PiQA、HellaSwag 和 Winogrande 中,每個任務都需要一定程度的常識知識,超出語言的統(tǒng)計模式才能解決。
  • 對于自然語言推理,兩個硬基準(ANLI-R2 和 HANS),針對過去模型的典型失敗案例。
  • 詞義消歧任務 WiC 從上下文評估多義詞的理解。
為了增強可重復性,研究者們將基于開源項目 lm-evaluation-harness 評估設置,并進行了適當的特定任務更改,以便于研究者們的設置與之前的工作更緊密地保持一致。研究者們在零樣本、單樣本和少樣本設置中以沒有搜索最有價值的樣本方法評估了 MT-NLG。表 2 展示了準確率度量的結果。如果測試集是公開可用的,研究者會在測試集上進行評估;否則,將會報告開發(fā)集上的數字。最終公考報告 LAMBADA、RACE-h 和 ANLI-R2 上的測試集和開發(fā)集上的其他任務。
Tasks Zero-shot One-shot Few-shot
Lambada 0.766* 0.731* 0.872*
BoolQ 0.782 0.825 0.848
RACE-h 0.479 0.484 0.479
PiQA 0.820* 0.810* 0.832*
HellaSwag 0.802 0.802 0.824
WinoGrande 0.730 0.737 0.789
ANLI-R2 0.366 0.397 0.396
HANS 0.607 0.649 0.702
WiC 0.486 0.513 0.585
圖3:MT-NLG 在 PiQA 開發(fā)集和 LAMBADA 測試集的所有設置上都實現了 SOTA(用 * 表示)MT-NLG 在 PiQA 開發(fā)集和 LAMBADA 測試集的所有設置上都實現了 SOTA,并且在其他類別的類似單體模型中同樣表現出色。此外,MT-NLG 相比于之前的模型在訓練上需要更少的 token ,也就是說 MT-NLG 具備更快的學習能力。除了報告基準任務的匯總指標外,研究者還對模型輸出進行了定性分析,并得出了有趣的發(fā)現。在分析中觀察到,即使符號被嚴重混淆(樣本2),該模型也可以從上下文中推斷出基本的數學運算(樣本1)。雖然還不能稱上具有算術能力,但該模型似乎超出了僅記憶算術的水平。這是來自 HANS 測試集的任務,一個包含簡單句法結構的任務會被作為問題提出來,并提示模型給出答案。盡管這些結構很簡單,但現有的自然語言推理(NLI)模型往往很難處理這樣的輸入。而微調的模型經常從NLI數據集中的系統(tǒng)性偏差中發(fā)現某些句法結構和蘊含關系之間的虛假關聯。
Tasks Sample 1 Sample 2
Inferring mathematical operations Prompt:Q: 11 # 2 = ?A: 5.5Q: 18 # 9 = ?A: 2Q: 35 # 4 = ?A: 8.75Q: 27 # 9 = ?A: 3Q: 75 # 6 = ?A: MT-NLG:12.5Q: 45 # 5 = ?A: 9Q: 18 # 6 = ?A: 3 Prompt:Q: 11 $^% 2 = ?A: 22 Q: 3 $^% 9 = ?A: 27 Q: 12 $^% 4 = ?A: 48 Q: 7 $^% 7 = ?A: 49 Q: 8 $^% 5 = ?A: MT-NLG:40Q: 9 $^% 6 = ?A: 54Q: 10 $^% 5 = ?A: 50
Natural language inference on different syntactic structures Prompt:The banker forgot that the judge advised the professors.Question: The judge advised the professors. True or False?Answer: MT-NLG:True. The banker forgot that the judge advised the professors. Prompt:Famous professors supported the secretary.Question: Professors supported the secretary. True or False?Answer: MT-NLG:True. The secretary was supported by famous professors.
圖4:MT-NLG 在不同句法結構下的數學運算推理和自然語言推理的樣本。


微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大



結語

今天,人工智能技術的進步正在超越摩爾定律的極限。新一代的 GPU 以閃電般的速度互連,不斷升級算力。與此同時,AI 模型的擴展帶來了更好的性能,而且似乎前景無限。MT-NLG 就是一個例子,當像英偉達 Selene 或微軟 Azure NDv4 這樣的超級計算機與 Megatron-LM 和 DeepSpeed 的軟件創(chuàng)新一起用來訓練大型語言 AI 模型時,可能會發(fā)生什么?DeepSpeed 和 Megatron-LM 的創(chuàng)新將助力未來更多的 AI 模型開發(fā),并使大型 AI 模型的訓練成本更低、速度更快。在成本方面也是不可忽視的問題。比如說 MT-NLP、AI21 Labs 的 Jurassic-1、華為的盤古-Alpha、Naver 的 HyperCLOVA 和北京人工智能研究院的五道 2.0 等項目。例如 OpenAI 的 GPT-3 的訓練數據集大小為 45 TB,一個 GPT-3 模型可能需要要 700G 的硬盤空間來存儲。通常認為,模型的參數越多,它可以完成的任務就越復雜,性能也越好。但是越來越多的研究對這個概念提出了質疑。今年9月 Google 發(fā)布 FLAN ,與 GPT-3 的 1750 億個參數相比,FLAN 擁有 1370 億個參數,在研究人員對其進行測試的 25 項任務中,有19項超過了 zero-shot 175B GPT-3。康奈爾大學的自然語言處理研究員 Maria Antoniak 也曾公開表示,是否一定需要更大的模型才能處理好自然語言,目前來說這個問題還沒有答案。即便說基準測試的排行榜被這些大模型刷了個遍,但把更多的數據輸入到模型中,是否能繼續(xù)帶來性能提升,還是不確定的。雖然大規(guī)模語言模型推動了語言生成技術的發(fā)展,但它們也存在偏見和有害性等問題。人工智能社區(qū)正在積極研究、理解和消除語言模型中的這些問題。英偉達微軟的研究者表示, MT-NLG 模型從它所訓練的數據中提取了刻板印象和偏見。他們正在致力于解決這個問題,并鼓勵幫助量化模型偏差的后續(xù)相關研究。參考鏈接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/本文由AI科技大本營翻譯,轉載請注明出處。 微軟、英偉達聯手推出語言模型?MT-NLP,5300億參數,現存最大



本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉