硬件

NVIDIA放大招!2028年Feynman GPU携X3D堆叠破AI推理

YIHAN 原创 2026-01-01 00:00:03
资讯
由华为云驱动

在AI算力赛道,NVIDIA早已凭借Hopper、Blackwell等架构GPU,在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发,传统GPU在推理延迟上的短板逐渐凸显。近日,据行业消息披露,NVIDIA正瞄准这一痛点,计划于2028年推出新一代Feynman(费曼)架构GPU——这款产品将首次引入X3D堆叠设计,整合Groq公司的LPU(语言处理单元),搭配台积电1.6nm A16制程,剑指AI推理性能的“质的飞跃”

在AI算力赛道,NVIDIA早已凭借Hopper、Blackwell等架构GPU,在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发,传统GPU在推理延迟上的短板逐渐凸显。近日,据行业消息披露,NVIDIA正瞄准这一痛点,计划于2028年推出新一代Feynman(费曼)架构GPU——这款产品将首次引入X3D堆叠设计,整合Groq公司的LPU(语言处理单元),搭配台积电1.6nm A16制程,剑指AI推理性能的“质的飞跃”,甚至可能改写整个AI算力的行业格局。

Feynman GPU核心升级:1.6nm制程+SoIC堆叠破物理限制

Feynman架构的首要突破,在于其对半导体物理极限的挑战——它将接替Rubin架构,采用台积电最先进的A16制程(即1.6nm工艺)。作为台积电下一代旗舰制程,A16并非简单的“制程微缩”,而是集成了纳米片晶体管、超级电轨等新技术:相比N2P制程,A16在相同功耗下速度有不小提升,相同速度下功耗也能降低不少,同时芯片密度也进一步增加,这些特性恰好契合AI GPU对“高能效比”的核心需求。

但真正让Feynman脱颖而出的,是其创新性的X3D堆叠设计。NVIDIA计划借助台积电的SoIC(系统整合芯片)混合键合技术,将Groq的LPU单元直接堆叠在GPU主芯片之上——这一思路虽与AMD的3D V-Cache技术类似,但两者的核心逻辑完全不同:AMD堆叠的是普通缓存,而NVIDIA堆叠的是专为推理加速设计的LPU单元,相当于给GPU“加装了一个专门处理语言类推理任务的专属引擎”。

之所以采用这种设计,根源在于SRAM(静态随机存取存储器)的“缩放困境”。随着制程向1.6nm逼近,SRAM的微缩速度已远落后于逻辑电路:从N5制程(约0.021μm²)到N3E,再到N2制程(约0.0175μm²),SRAM的位单元面积几乎没有明显缩减,密度仅能达到约38Mb/mm²。这意味着,如果在1.6nm主芯片上直接集成大容量SRAM,不仅会浪费昂贵的先进制程晶圆面积,还会大幅推高芯片成本。

Feynman的堆叠方案恰好解决了这一问题:它将GPU的运算核心(包括Tensor单元、控制逻辑等)留在主芯片上,而把需要大量面积的SRAM单独做成一层“堆叠芯片”,再通过SoIC技术与主芯片连接。更关键的是,台积电A16制程支持“背面供电”技术——传统芯片的供电线路和信号线路都集中在正面,而背面供电能将供电线路转移到芯片背面,腾出正面空间专门用于垂直信号连接。这一设计让堆叠的LPU与主芯片之间的数据流传输“更直接、更低功耗”,避免了传统布线带来的延迟损耗。

LPU赋能:确定性执行让即时AI响应“零延迟”

如果说制程和堆叠是Feynman的“硬件基础”,那么Groq LPU单元就是其“性能灵魂”。LPU(语言处理单元)并非普通的计算单元,它的核心优势在于“确定性执行逻辑”——简单来说,传统GPU的计算任务调度多为“动态分配”,可能因内存访问顺序、资源占用情况产生延迟;而LPU采用编译驱动的数据流设计,配合静态低延迟调度,能提前确定任务的执行顺序和内存配置,从根源上减少推理过程中的“等待时间”。

这种特性在低批处理场景下尤为关键。比如语音对话、实时翻译等即时AI任务,往往是“单条请求、快速响应”,属于典型的低批处理负载。此时,LPU的高模型浮点数利用率(MFU)能充分发挥作用:它可以更高效地调用计算资源,避免传统GPU因“等待批处理数据”产生的性能浪费。行业专家预测,搭配LPU后,Feynman GPU在处理这类即时任务时,响应速度可能实现“数倍提升”——比如原本需要0.5秒加载的语音AI回复,未来可能压缩到0.1秒以内,接近“实时交互”的体验。

更重要的是,LPU与主GPU的协同并非“简单叠加”。通过SoIC技术的高速连接,LPU的SRAM层能为GPU主芯片提供“低延迟、高带宽”的内存支持:当GPU处理推理任务时,无需频繁访问外部显存(如HBM),直接从堆叠的SRAM中调取数据,这进一步缩短了数据传输路径。这种“运算核心+专属推理引擎+近距内存”的组合,让Feynman在即时AI场景下的优势难以替代。

两大难题待解:散热与CUDA兼容成工程关键

尽管Feynman的技术蓝图足够亮眼,但要落地仍需攻克两大“硬骨头”——散热和CUDA生态兼容性。

首先是散热问题。AI GPU本身就是“高功耗、高密度”的产品,而Feynman在主芯片上再堆叠一层LPU单元,相当于将两个发热源“叠放在一起”,热密度会大幅增加。一旦热量无法及时散出,芯片很可能触发“热当机”,反而影响性能。目前,NVIDIA工程团队尚未披露具体的散热方案,但行业推测,Feynman可能需要采用更高效的冷却技术——比如增强型液冷、均热板升级,甚至可能联合散热厂商开发“定制化散热模组”,确保堆叠后的芯片能稳定运行。

其次是CUDA生态的兼容性难题。CUDA是NVIDIA深耕多年的“护城河”——全球数百万开发者基于CUDA开发了AI训练、图形渲染、科学计算等领域的应用,其核心优势在于“硬件抽象化”:开发者无需关注底层硬件细节,就能通过CUDA接口调用GPU资源。但LPU的“确定性执行”恰好需要“精确的内存配置”,这与CUDA的“抽象化设计”存在天然冲突。

要解决这一问题,NVIDIA需要进行深度的软件优化:一方面,要在CUDA驱动中加入对LPU的支持,让开发者无需修改现有代码,就能间接调用LPU的推理能力;另一方面,可能需要开发专门的编译器,将LPU的“确定性调度”与GPU的“动态调度”融合,确保两者协同工作时不出现逻辑冲突。

CES 2026前瞻:NVIDIA提前布局,Rubin平台与AI生态成焦点

在Feynman架构正式落地前,NVIDIA的动作已在2026年CES(国际消费电子展)上初露端倪。这场将于2026年1月5日-9日在拉斯维加斯举办的科技盛会,将成为NVIDIA展示“AI全场景布局”的重要舞台,其中多个动作都与Feynman的未来落地密切相关。

CES2026的“重头戏”,当属NVIDIA CEO黄仁勋的主题演讲。按照日程,黄仁勋将在1月5日下午1时(太平洋时间)亮相。此次演讲不仅会分享未来AI发展趋势,更会重点介绍NVIDIA与合作伙伴共同打造的生态体系——比如如何通过技术突破,推动AI在机器人、无人机、车用领域的落地。业界普遍期待,黄仁勋可能会在演讲中披露Rubin平台的最新进度:作为Feynman的“前代架构”,Rubin的商业化进展将直接影响Feynman的技术迭代节奏。

除了演讲,NVIDIA在CES2026的展台同样值得关注。NVIDIA将设置多个互动演示,涵盖AI机器人、模拟仿真、游戏、内容创作等领域——观众不仅能亲手体验“即时AI交互”的最新成果,还能与NVIDIA的技术专家直接交流。

Feynman的意义:AI推理进入“堆叠时代”?

从技术布局来看,Feynman GPU的推出并非偶然,而是NVIDIA应对“AI算力细分”的必然选择。此前,AI算力市场更关注“训练性能”,但随着大模型逐渐从“研发期”进入“应用期”,推理场景的重要性日益凸显——比如智能座舱的语音助手、跨境会议的实时翻译、工业场景的AI质检,这些应用对“低延迟”的要求远高于“高算力”,而Feynman的堆叠设计恰好切中了这一需求。

不过,Feynman要实现商业化落地,仍需跨越“生态适配”的鸿沟。一方面,LPU的“确定性执行”需要开发者调整算法逻辑,这可能增加应用迁移成本;另一方面,台积电A16制程的产能、SoIC堆叠的良率,以及散热方案的商业化成熟度,都可能影响Feynman的量产进度。但不可否认的是,Feynman的技术思路已为行业提供了新方向:当制程微缩逼近极限时,“3D堆叠+专用计算单元”的组合,或许会成为AI芯片突破性能瓶颈的“主流路径”。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

蓝宝石 NITRO+ 氮动 RX 9070 XT 16G D6 Phantomlink & 蓝宝石 NITRO+ 氮动 X870EA PhantomLink评测:目前唯一AMD背插!装机颜值党狂喜! 原创 显卡 资讯
蓝宝石 NITRO+ 氮动 RX 9070 XT 16G D6 Phantomlink & 蓝宝石 NITRO+ 氮动 X870EA PhantomLink评测:目前唯一AMD背插!装机颜值党狂喜!
拿下TGA大奖的《战地6》怎么玩才爽?三星9100 PRO封神:开启 5.0满血时代 原创 显卡 资讯
拿下TGA大奖的《战地6》怎么玩才爽?三星9100 PRO封神:开启 5.0满血时代
6K 裸眼 3D 加1040Hz,三星这代 Odyssey 想把显示器“卷”到哪 原创 显卡 资讯
6K 裸眼 3D 加1040Hz,三星这代 Odyssey 想把显示器“卷”到哪
抢跑台积电!三星全球首发2nm芯片 原创 显卡 资讯
抢跑台积电!三星全球首发2nm芯片
《暗黑4》国服终于来了,但玩家们为什么先怒了? 原创 显卡 资讯
《暗黑4》国服终于来了,但玩家们为什么先怒了?
《超英派遣中心》耕升GeForce RTX 5060 踏雪 OC英雄的职场寓言 原创 显卡 资讯
《超英派遣中心》耕升GeForce RTX 5060 踏雪 OC英雄的职场寓言
【游戏物语】颜值党狂喜!微星MLG魔龙姬定制整机玩转《暗黑破坏神4》特效拉满还养眼 原创 显卡 资讯
【游戏物语】颜值党狂喜!微星MLG魔龙姬定制整机玩转《暗黑破坏神4》特效拉满还养眼
HKC惠科股份亮相CES 2026 原创 显卡 资讯
HKC惠科股份亮相CES 2026
氮动双色可选!蓝宝石RX9070XT Phontom Link 显卡上市! 原创 显卡 资讯
氮动双色可选!蓝宝石RX9070XT Phontom Link 显卡上市!
NITRO+氮动极光特别版与钛色版X870E旗舰主板强势上新,创新背插技术赋能极致游戏体验 原创 显卡 资讯
NITRO+氮动极光特别版与钛色版X870E旗舰主板强势上新,创新背插技术赋能极致游戏体验
相关产品
取消