微軟和英偉達聯手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。
微軟和英偉達宣布,他們聯合推出迄今為止最大和最強的人工智能驅動的語言模型:Megatron-Turing(MT-NLP)。從公開披露的角度來看,MT-NLP 應該是現存最大的公共模型。在訓練過程一共使用了 4480 塊英偉達 A100 GPU ,作為兩家公司 Turing NLG 17B 和 Megatron-LM 模型的繼承者,MT-NLP 包含5300億個參數,在一系列廣泛的自然語言任務中實現了無與倫比的準確性,例如:
- 完成預測
- 閱讀理解
- 常識論證
- 自然語言推理
- 詞義消歧
大規(guī)模語言模型
近年來,自然語言處理 (NLP) 中基于 Transformer 的語言模型在大規(guī)模計算、大型數據集以及用于訓練這些模型的高級算法和軟件的推動下推動了快速發(fā)展。具有大量參數、更多數據和更多訓練時間的語言模型可以獲得更豐富、更細致的語言理解。因此,它們可以很好地概括為有效的零樣本(zero-shot)或少樣本(few-shot)學習器,在許多 NLP 任務和數據集上具有很高的準確性。NLP 領域的任務包括摘要、自動對話生成、翻譯、語義搜索以及代碼自動生成等。當前,SOTA NLP 模型中的參數數量呈指數增長,如下圖 1 所示。圖 1. SOTA NLP 模型大小隨時間變化的趨勢然而,訓練此類模型具有挑戰(zhàn)性,主要是以下兩個原因:
- 即使是最大的 GPU,也不再可能在內存中擬合這些模型的參數。
- 如果不特別注意優(yōu)化算法、軟件和硬件堆棧,則所需的大量計算操作可能會導致不切實際的長訓練時間。
大規(guī)模培訓基礎設施
在 英偉達 A100 Tensor Core GPU 和 HDR InfiniBand 網絡的支持下,NVIDIA Selene 和 Microsoft Azure NDv4 等最先進的超級計算集群具有足夠的計算能力,可以在合理的時間范圍內訓練具有數萬億個參數的模型。然而,要充分發(fā)揮這些超級計算機的潛力,需要在數千個 GPU 之間實現并行性,在內存和計算上都高效且可擴展。然而,現有的并行策略(例如數據、pipeline 或 tensor-slicing)在內存和計算效率方面存在以下權衡,無法用于訓練這種規(guī)模的模型:- 數據并行實現了良好的計算效率,但它復制了模型狀態(tài)并且無法利用聚合分布式內存。
- tensor-slicing 需要 GPU 之間的大量通信,所以單個節(jié)點以外的計算效率受限,使得高帶寬 NVLink 不可用。
- pipeline 并行性可以跨節(jié)點有效擴展。然而,為了提高計算效率,它需要大批量、粗粒度的并行和完美的負載平衡,這在規(guī)模上是不可能的。
軟件設計
通過英偉達 Megatron-LM 和微軟 DeepSpeed 之間的合作,創(chuàng)建了一個高效且可擴展的 3D 并行系統(tǒng),能夠將數據、pipeline 和 tensor-slicing 的并行性結合在一起來應對這些挑戰(zhàn)。通過結合 pipeline 和 tensor-slicing 并行性,研究者們可以在它們最有效的范圍內操作它們。更具體地說,該系統(tǒng)使用來自 Megatron-LM 的 tensor-slicing 來擴展節(jié)點內的模型,并使用來自 DeepSpeed 的 pipeline 并行性來跨節(jié)點擴展模型。例如,對于 5300 億模型,每個模型副本(replica)跨越 280 個英偉達 A100 GPU,具有節(jié)點內的 8 路 tensor-slicing 和跨節(jié)點的 35 路 pipeline 并行性。然后,我們使用 DeepSpeed 的數據并行性進一步擴展到數千個 GPU。
硬件系統(tǒng)
模型訓練是在基于英偉達 DGX SuperPOD 的 Selene 超級計算機上以混合精度完成的,該超級計算機由 560 個 DGX A100 服務器提供支持,這些服務器以完整的胖樹配置與 HDR InfiniBand 聯網。每個 DGX A100 有 8 個英偉達 A100 80GB Tensor Core GPU,并通過 NVLink 和 NVSwitch 相互完全連接。微軟為 Azure NDv4 云超級計算機使用了類似的參考架構。
系統(tǒng)吞吐量
我們考慮了我們的系統(tǒng)在 Selene 上的 280、350 和 420 DGX A100 服務器上,批量大小為 1920 的 5300 億參數模型的端到端吞吐量。研究者們觀察到的迭代時間分別為 60.1、50.2 和 44.4 秒。這些分別對應于每個 GPU 126、121 和 113 teraFLOP/s。訓練數據集和模型配置
研究者們使用了 Transformer 解碼器的架構,它是一個從左到右生成的基于 Transformer 的語言模型,由 5300 億個參數組成。層數、隱藏維度和注意力頭分別為 105、20480 和 128。基于開源數據集集合 The Pile,研究者構建了訓練數據集。首先,從 The Pile 中選擇了相對質量最高的數據集子集(圖 2 中的前 11 行)。然后,按照與用于生成 Pile-CC 的方法類似的方法,下載并過濾了兩個最近的 Common Crawl (CC) 快照。并對 CC 數據采取的步驟包括從原始 HTML 文件中提取文本、使用在高質量數據上訓練的分類器對提取的文檔進行評分,以及根據評分過濾文檔。在構建訓練數據集時,文檔去重是必要的,因為相同的內容可以存在于不同數據集的多個文檔中。研究者們使用 min-hash LSH 在文檔級別使用模糊重復數據刪除過程來計算稀疏文檔圖和其中的連接組件以識別重復文檔。然后,在從每個連接組件的重復文檔中選擇代表性文檔時,根據數據集的質量使用優(yōu)先級順序。最后,使用基于 n-gram 的過濾從訓練數據集中刪除下游任務數據以避免污染。最終的訓練集包括 15 個數據集,總共包含 3390 億個 token。在訓練期間,研究者根據圖 2 中給出的可變采樣權重將數據集混合到異構批次中,重點放在更高質量的數據集上,我在 2700 億個 token 上訓練了模型。Dataset | Tokens (billions) | Weights (%) | Epochs |
Books3 | 25.7 | 14.3 | 1.5 |
OpenWebText2 | 14.8 | 19.3 | 3.6 |
Stack Exchange | 11.6 | 5.7 | 1.4 |
PubMed Abstracts | 4.4 | 2.9 | 1.8 |
Wikipedia | 4.2 | 4.8 | 3.2 |
Gutenberg (PG-19) | 2.7 | 0.9 | 0.9 |
BookCorpus2 | 1.5 | 1.0 | 1.8 |
NIH ExPorter | 0.3 | 0.2 | 1.8 |
Pile-CC | 49.8 | 9.4 | 0.5 |
ArXiv | 20.8 | 1.4 | 0.2 |
GitHub | 24.3 | 1.6 | 0.2 |
CC-2020-50 | 68.7 | 13.0 | 0.5 |
CC-2021-04 | 82.6 | 15.7 | 0.5 |
RealNews | 21.9 | 9.0 | 1.1 |
CC-Stories | 5.3 | 0.9 | 0.5 |
訓練結果和成就
近期語言模型 (LM) 方面的工作表明,強大的預訓練模型通常可以在不進行微調的情況下,在廣泛的 NLP 任務中具有競爭力。為了了解擴大 LM 如何增強其零樣本或少樣本學習能力,研究者評估了 MT-NLG,并證明它在多個類別的 NLP 任務中建立了新的 SOTA。為確保評估的全面性,我們選擇了跨越五個不同領域的八項任務:- 在文本預測任務 LAMBADA 中,模型預測給定段落的最后一個詞。
- 在閱讀理解任務 RACE-h 和 BoolQ 中,模型根據給定的段落生成問題的答案。
- 在常識推理任務 PiQA、HellaSwag 和 Winogrande 中,每個任務都需要一定程度的常識知識,超出語言的統(tǒng)計模式才能解決。
- 對于自然語言推理,兩個硬基準(ANLI-R2 和 HANS),針對過去模型的典型失敗案例。
- 詞義消歧任務 WiC 從上下文評估多義詞的理解。
Tasks | Zero-shot | One-shot | Few-shot |
Lambada | 0.766* | 0.731* | 0.872* |
BoolQ | 0.782 | 0.825 | 0.848 |
RACE-h | 0.479 | 0.484 | 0.479 |
PiQA | 0.820* | 0.810* | 0.832* |
HellaSwag | 0.802 | 0.802 | 0.824 |
WinoGrande | 0.730 | 0.737 | 0.789 |
ANLI-R2 | 0.366 | 0.397 | 0.396 |
HANS | 0.607 | 0.649 | 0.702 |
WiC | 0.486 | 0.513 | 0.585 |
Tasks | Sample 1 | Sample 2 |
Inferring mathematical operations | Prompt:Q: 11 # 2 = ?A: 5.5Q: 18 # 9 = ?A: 2Q: 35 # 4 = ?A: 8.75Q: 27 # 9 = ?A: 3Q: 75 # 6 = ?A: MT-NLG:12.5Q: 45 # 5 = ?A: 9Q: 18 # 6 = ?A: 3 | Prompt:Q: 11 $^% 2 = ?A: 22 Q: 3 $^% 9 = ?A: 27 Q: 12 $^% 4 = ?A: 48 Q: 7 $^% 7 = ?A: 49 Q: 8 $^% 5 = ?A: MT-NLG:40Q: 9 $^% 6 = ?A: 54Q: 10 $^% 5 = ?A: 50 |
Natural language inference on different syntactic structures | Prompt:The banker forgot that the judge advised the professors.Question: The judge advised the professors. True or False?Answer: MT-NLG:True. The banker forgot that the judge advised the professors. | Prompt:Famous professors supported the secretary.Question: Professors supported the secretary. True or False?Answer: MT-NLG:True. The secretary was supported by famous professors. |
結語
今天,人工智能技術的進步正在超越摩爾定律的極限。新一代的 GPU 以閃電般的速度互連,不斷升級算力。與此同時,AI 模型的擴展帶來了更好的性能,而且似乎前景無限。MT-NLG 就是一個例子,當像英偉達 Selene 或微軟 Azure NDv4 這樣的超級計算機與 Megatron-LM 和 DeepSpeed 的軟件創(chuàng)新一起用來訓練大型語言 AI 模型時,可能會發(fā)生什么?DeepSpeed 和 Megatron-LM 的創(chuàng)新將助力未來更多的 AI 模型開發(fā),并使大型 AI 模型的訓練成本更低、速度更快。在成本方面也是不可忽視的問題。比如說 MT-NLP、AI21 Labs 的 Jurassic-1、華為的盤古-Alpha、Naver 的 HyperCLOVA 和北京人工智能研究院的五道 2.0 等項目。例如 OpenAI 的 GPT-3 的訓練數據集大小為 45 TB,一個 GPT-3 模型可能需要要 700G 的硬盤空間來存儲。通常認為,模型的參數越多,它可以完成的任務就越復雜,性能也越好。但是越來越多的研究對這個概念提出了質疑。今年9月 Google 發(fā)布 FLAN ,與 GPT-3 的 1750 億個參數相比,FLAN 擁有 1370 億個參數,在研究人員對其進行測試的 25 項任務中,有19項超過了 zero-shot 175B GPT-3。康奈爾大學的自然語言處理研究員 Maria Antoniak 也曾公開表示,是否一定需要更大的模型才能處理好自然語言,目前來說這個問題還沒有答案。即便說基準測試的排行榜被這些大模型刷了個遍,但把更多的數據輸入到模型中,是否能繼續(xù)帶來性能提升,還是不確定的。雖然大規(guī)模語言模型推動了語言生成技術的發(fā)展,但它們也存在偏見和有害性等問題。人工智能社區(qū)正在積極研究、理解和消除語言模型中的這些問題。英偉達和微軟的研究者表示, MT-NLG 模型從它所訓練的數據中提取了刻板印象和偏見。他們正在致力于解決這個問題,并鼓勵幫助量化模型偏差的后續(xù)相關研究。參考鏈接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/本文由AI科技大本營翻譯,轉載請注明出處。