大型语言模型的工作原理:人工智能的隐性硬件需求

日期2026-03-20

新闻内容

 

大型语言模型(LLM)不仅需要架构和算法,还要强大的物理硬件才能发挥真正威力;任何关键算法选择都会在硬件中引发巨大的电流冲激,将互连架构推向极限。

 

大型语言模型(LLM)的核心任务看似简单:预测序列中最可能出现的下一个词元(token)。词元是LLM的基本数据单元,代表一个单词或单词的一部分。然而,大规模执行这一过程需要复杂的软件架构,该架构能够从海量的文本和代码数据集中学习。这种方法为人工智能领域带来了显著的新功能,但也对支撑这些功能的硬件系统提出了更为严峻的要求。事实上,随着这些模型中的参数数量从数十亿增长到数万亿,相应的硬件需求也呈指数级增长。 

LLM的强大功能源于其软件设计,但正是这种设计也带来了根本性的物理挑战。模型内部机制对硬件提出了极高的要求,可能会使AI集群的物理基础设施不堪重负,形成难解的纠结。这些算法赋予LLM强大功能,也造成了当前硬件无法应对的物理数据拥堵。

(图片来源“Molex莫仕连接器”微信公众号)

 

 一、解构语言学习模型:从软件到信号 

 

了解语言学习模型的硬件需求,首先要考察其软件流程。语言学习模型基于庞大的数据集进行训练,这些数据集通常包含数十亿个网页、书籍和文章,使其能够学习词语和短语之间的统计关系。将人类语言准备给机器的过程始于分词,即将文本分割成称为词元的更小单元,并为其分配数字ID。

每个词元的数值ID都会被映射到一个 “词嵌入”,这是一个多维向量,用于捕捉词元的语义含义。相应的词嵌入表可能非常庞大,需要消耗大量的高速内存来进行存储和访问。

 

大多数现代语言学习模型(LLM)都基于变换器 (Transformer)神经网络架构构建,这种架构专为在数千个处理器上进行并行处理而设计。与只能顺序处理数据的旧式循环神经网络(RNN)架构相比,这是一个突破。变换器架构的关键组件是自注意力机制,它能够衡量序列中不同词语的重要性。这个模型本身是一个深度神经网络,拥有数十亿甚至数万亿个参数,这些参数是训练过程中不断调整的内部权重和偏差。 

自注意力机制会产生一个N平方的计算问题,并且对于生成的每个词元,都会在处理器之间产生大量的数据混洗。词嵌入的内存需求和自注意力机制产生的数据流量,共同决定了LLM的核心硬件要求。

 

 二、自注意力机制:LLM的硬件瓶颈 

 

自注意力机制既是LLM强大功能的来源,也是其硬件需求巨大的原因。该机制使模型能够理解上下文,这对于识别文本中的长程依赖关系至关重要,它使模型能够理解一个词的含义如何受到序列中更早出现的词的影响。为了实现这一点,模型必须在处理过程的每个步骤中,将上下文窗口内的每个词元与其他所有词元进行比较。N平方的计算需求会在GPU集群内部造成巨大的东西向数据流量爆炸。这种处理器之间的通信是整个AI集群中最耗费资源的工作负载。如果连接处理器的物理互连无法处理如此庞大的数据洪流,GPU将会因为缺乏数据而处于空闲状态,从而造成严重的性能瓶颈,而仅靠软件无法解决。

 

由此产生的硬件难题主要体现在两个方面:

  • 一是如何在数千个并行连接中高速保持信号完整性;

  • 二是实现集群中每个处理器物理连接所需的极高连接密度。

解决这两个难题是目前设计下一代人工智能硬件的工程师们的首要任务。

 

 三、核心LLM硬件要求 

 

应对自注意力机制产生的内部数据流量,关键在于新一代高速、高密度互连技术。这就要求从系统层面着手物理层,以解决由这种高强度数据流量带来的两大主要工程难题:连接密度和信号完整性。

  • 首要挑战在于实现极高的连接密度。为了最大限度地降低延迟,AI 服务器必须将数量庞大的GPU和加速器尽可能紧密地集成在一块电路板上,通常使用夹层卡进行垂直构建。这带来了巨大的物理挑战,因为必须在极其狭小的空间内建立数千个高速并行连接,将传统连接器的设计推向了极限。

  • 保持信号完整性是第二个同样至关重要的问题。在下一代传输速度下,通过传统印刷电路板(PCB)上长而损耗大的走线传输高速信号会显著降低信号质量。这种信号劣化会导致比特错误,并限制连接的有效带宽,结果造成性能瓶颈,甚至在数据离开电路板之前就可能削弱处理器的性能。

如果无法同时解决密度和信号完整性问题,人工智能集群的可扩展性将受到根本限制,无法训练更大型和更强大的模型。

 

 四、满足LLM硬件需求的互连解决方案 

 

LLM的性能最终取决于其硬件。软件架构定义了任务,而物理互连则决定了任务的执行速度和效率。Molex莫仕凭借深厚的工程技术专长,致力于解决LLM面临的核心信号完整性和密度挑战。

这种专业技术体现在一系列专为满足人工智能集群特定需求而设计的解决方案中。为了应对密度挑战,Mirror Mezz Pro 连接器提供了超高密度、高速的板对板解决方案,能够在最大限度节省空间的同时,处理下一代速度。为了克服信号完整性挑战,CX2双速连接器和线缆组件提供从处理器到其他组件的直接旁路连接,从而保持信号完整性并降低延迟。这些解决方案共同构成了一套全面的板载物理层策略。它们能够同时应对密度和信号完整性方面的挑战,从而支持人工智能集群庞大的内部数据流,并提供满足LLM硬件要求和构建面向未来的强大人工智能集群所必需的物理硬件。如需深入了解,请探索 Molex莫仕面向人工智能和机器学习基础设施的解决方案。

 

→相关产品 - Mirror Mezz 产品目录:https://www.molex.com/content/dam/molex/molex-dot-com/en_us/pdf/datasheets/987652-0673.pdf?inline

 

→相关产品 - CX2 产品目录:https://www.molex.com/content/dam/molex/molex-dot-com/en_us/pdf/datasheets/987652-6341.pdf?inline