近日,由AMD组织,并有包括英特尔、谷歌、微软、博通、思科、Meta、惠普企业等,八家科技巨头联合组建了一个新的行业联盟UALink Promoter Group,旨在推出一项名为UALink的新技术标准,直接对抗英伟达的NVLink技术。
如今,人工智能应用充斥于数据中心里加速计算的各类前沿项目,进一步捍卫了英伟达计算互联系统的主导地位。在以GPU加速器为核心计算互联系统中,英伟达拥有一系列跨多个GPU和系统扩展工作负载的互联技术,包括芯片的片间互联,高带宽内存的封装互连,用于服务器或pod中GPU到GPU通信的NVLink,用于扩展pod的Infiniband专用网络,以及连接到更广泛基础设施的以太网ROCE。
现在,UALink致力于联合这些英伟达的竞争对手们试图建立新的开放标准来建立新的市场认知。去年,他们中的一些巨头已经用增强型以太网来提供InfiniBand替代方案的超以太网UICe。
大规模人工智能模型需要依靠多个加速器来运行正在开发的神经网络的一个单独副本,而期望这些加速器可以同步这些神经网络副本,就需要芯片间可以有高速相互交换数据的定制化通道。而这,正是当下NVLink可以凭借超高带宽可以一统AI数据中心的强大资本。这也是本次UALink联盟计划的互连所要解决的问题。
根据外媒对UALink联盟计划的进一步披露指出,该技术将使在一个集群中连接多达1024个人工智能加速器成为可能。此外,UALink将能够将这样的集群连接到网络交换机,这有助于优化各个处理器之间的数据流量。
该联盟详细介绍了这项工作的一个特点是能够促进“连接到加速器的存储器之间的直接加载和存储”。这是促进对人工智能芯片内存的直接访问来加快AI应用的一种方式,对此英伟达公司也以GPUDirect的形式提供了这种技术的实现,该技术可用于其数据中心显卡。
UALink联盟计划有利于业界的其他公司有机会跟上英伟达的步伐。粗略的衡量一下这些竞争对手们在数据中心领域的表现,其人工智能和高性能计算加速器份额可能会接近个位数。英特尔今年销售了数亿美元的人工智能加速器,这可能意味着它只销售了数万个加速器。AMD今年将销售数十亿美元的MI300X,但这与英伟达的人工智能规模仍然相去甚远。更重要的是,越来越多的公司,如高通、AWS和谷歌等超大规模公司,以及Groq、Tenstorrent和Untether AI等人工智能芯片初创公司已经或正在开发自己的专门用于人工智能推理的芯片了。有了UALink,像博通这样的公司就可以制造UALink交换机,帮助其他公司扩大规模,然后在多家公司的加速器上使用这些交换机。
网友评论