大型語言模型(LLM)不僅需要架構和演算法,還必須有強大的實體硬體才能發揮真正的威力;任何關鍵演算法的選擇,都會在硬體中引發巨大的電流衝擊,將互連架構推向極限。
大型語言模型(LLM)的核心任務看似簡單:預測序列中最有可能出現的下一個詞元(token)。詞元是LLM的基本資料單位,代表一個單字或單字的一部分。然而,要在大規模下執行這個過程,則需要複雜的軟體架構,能夠從大量的文本和程式碼資料集中進行學習。這種方法為人工智慧領域帶來了顯著的新功能,但同時也對支撐這些功能的硬體系統提出了更嚴峻的要求。事實上,隨著這些模型中的參數數量從數十億增加到數兆,相應的硬體需求也呈現指數級成長。
LLM 的強大功能來自於其軟體設計,但也正是這種設計帶來了根本性的物理挑戰。模型內部機制對硬體提出了極高的要求,可能會導致AI集群的實體基礎設施不堪負荷,形成難以解決的困境。這些演算法賦予大型語言模型強大的功能,同時也導致目前的硬體無法應付的物理資料壅塞問題。

(圖片來源:「Molex莫仕連接器」微信公眾號)
一、解構語言學習模型:從軟體到訊號
要了解語言學習模型的硬體需求,首先需要檢視其軟體流程。語言學習模型是基於龐大的資料集進行訓練,這些資料集通常包含數十億個網頁、書籍和文章,使模型能夠學習詞語與片語之間的統計關係。將人類語言轉換成機器可用的形式,第一步是分詞,也就是將文本切割成稱為詞元的更小單位,並為每個詞元分配一個數字ID。
每個詞元的數值ID都會被映射到一個「詞嵌入」,這是一個多維向量,用來捕捉詞元的語義含義。相對應的詞嵌入表可能非常龐大,需要消耗大量的高速記憶體來進行儲存和存取。
大多數現代語言學習模型(LLM)都是基於變換器(Transformer)神經網路架構所建構,這種架構專門為了在數千個處理器上進行平行處理而設計。與只能順序處理資料的舊式循環神經網路(RNN)架構相比,這是一項突破。變換器架構的關鍵組件是自注意力機制,它能夠衡量序列中不同詞語的重要性。這個模型本身是一個深度神經網路,擁有數十億甚至數兆個參數,這些參數是在訓練過程中不斷調整的內部權重和偏差。
自注意力機制會產生一個N平方的運算問題,並且在生成每個詞元時,處理器之間都會產生大量的資料重新分配。詞嵌入所需的記憶體,以及自注意力機制產生的資料流量,這兩者共同決定了大型語言模型(LLM)的核心硬體需求。
二、自注意力機制:LLM的硬體瓶頸
自注意力機制不僅是大型語言模型強大功能的來源,同時也是其對硬體需求極高的原因。這個機制讓模型能夠理解上下文,這對於識別文本中的長程依賴關係至關重要。它使模型能夠理解一個詞的意義如何受到序列中較早出現的詞的影響。為了達成這個目標,模型必須在處理過程的每個步驟中,將上下文視窗內的每個詞元與其他所有詞元進行比較。N平方等級的運算需求會在GPU叢集內部造成龐大的東西向資料流量爆炸。這種處理器之間的通訊,是整個AI叢集裡最耗費資源的工作負載。如果連接處理器的實體互連無法處理如此龐大的資料洪流,GPU就會因為缺乏資料而處於閒置狀態,進而造成嚴重的效能瓶頸,而僅靠軟體是無法解決的。
由此產生的硬體難題主要體現在兩個方面:
首先,如何在數千個並行連線中高速維持訊號完整性;
二是實現集群中每個處理器物理連接所需的極高連接密度。
解決這兩個難題是目前設計下一代人工智慧硬體的工程師們首要的任務。
三、核心LLM硬體要求
應對自注意力機制產生的內部數據流量,關鍵在於新一代高速、高密度互連技術。這就要求從系統層面著手物理層,以解決由這種高強度數據流量帶來的兩大主要工程難題:連接密度和訊號完整性。
首要挑戰在於實現極高的連接密度。為了最大程度地降低延遲,AI 伺服器必須將大量的 GPU 和加速器盡可能緊密地整合在同一塊電路板上,通常會使用夾層卡進行垂直堆疊。這帶來了巨大的物理挑戰,因為必須在極其狹小的空間內建立數千個高速並行連接,這也將傳統連接器的設計推向了極限。
保持訊號完整性是第二個同樣至關重要的問題。在下一代傳輸速度下,透過傳統印刷電路板(PCB)上長且損耗大的走線來傳輸高速信號,會顯著降低信號品質。這種信號劣化會導致位元錯誤,並限制連接的有效頻寬,最終造成效能瓶頸,甚至在資料離開電路板之前,就可能削弱處理器的效能。
如果無法同時解決密度和訊號完整性的問題,人工智慧集群的可擴展性將會受到根本性的限制,無法訓練更大型且更強大的模型。
四、滿足LLM硬體需求的互連解決方案
LLM 的效能最終取決於其硬體。軟體架構決定了任務內容,而實體互連則影響任務執行的速度與效率。Molex莫仕憑藉深厚的工程技術專長,致力於解決LLM所面臨的核心訊號完整性與密度挑戰。
這種專業技術體現在一系列專為滿足人工智慧集群特定需求而設計的解決方案中。為了應對密度挑戰,Mirror Mezz Pro 連接器提供超高密度、高速的板對板解決方案,能在最大限度節省空間的同時,處理新一代的速度需求。為了克服訊號完整性的挑戰,CX2雙速連接器線纜組件提供從處理器到其他元件的直接旁路連接,從而維持訊號完整性並降低延遲。這些解決方案共同構成了一套完整的板上實體層策略。它們能夠同時應對密度與訊號完整性方面的挑戰,從而支援人工智慧叢集龐大的內部資料流,並提供滿足大型語言模型(LLM)硬體需求以及打造面向未來的強大人工智慧叢集所必需的實體硬體。如需進一步了解,請探索 Molex 莫仕針對人工智慧與機器學習基礎設施所提供的解決方案。
→ 相關產品 - Mirror Mezz 產品目錄:https://www.molex.com/content/dam/molex/molex-dot-com/en_us/pdf/datasheets/987652-0673.pdf?inline
→ 相關產品 - CX2 產品目錄:https://www.molex.com/content/dam/molex/molex-dot-com/en_us/pdf/datasheets/987652-6341.pdf?inline
