为了使数据尽可能快地接近核心或加速器,几乎每个CPU或GPU设计都有一个缓存层次结构。容量最小但速度最快的是L0或L1缓存——这取决于制造商如何称呼它们。它是存储数据的最后一层。
根据芯片设计和芯片尺寸要求,芯片制造商可以自由选择L1缓存的大小。当然,这是有依赖性的。例如,Intel Lion Cove架构的L1数据缓存大小为48kB。在AMD的Zen-4架构中,它是32kB。
现在,在这里使用的SRAM允许在6T-1RW位单元中构建,就像通常做的那样。每个时钟周期都可以读写。如果芯片设计师设置了两个工作台,一个工作台可以被读取,而另一个工作台可以被写入。这将大大提高L1数据缓存的性能,但缺点是增加了芯片面积和功耗。
在2024年VLSI研讨会上,ARM展示了一种采用3nm CMOS的1Read-1ReadWrite (1R1RW)高带宽实例(HBI) 的内存缓存架构。该架构可无缝集成到Arm的旗舰高性能处理器中。它由8T 1R1RW SRAM组成,这意味着存储单元有一个额外的端口,可以同时进行两个读操作或一个读写操作。L1数据缓存中的HBI内存使可用的读带宽增加了一倍,并导致处理器IPC的改进,超过1%。
此外,ARM还提供了一种HBI-DDATA存储器,它不同于用于L1数据缓存的SRAM的传统视图和实现,并允许简化设计。ARM还提供了10-15ps的小延迟优势,典型的L1缓存延迟约为0.8ns。
1RW-SRAM需要83991µm²,1R1RW - HBI需要55,636µm²,1R1RW -SRAM需要128kB,但L1数据缓存的带宽要小33%。然而,对于同样高的容量,必须规划更多的区域。
ARM制造了一个面积为2.9986 x 3.9945 mm (11.98 mm²)的3纳米芯片进行测试,并在112个SRAM-HBI大电池上进行了成像,以验证其电气性能。它的工作电压为0.945 V,时钟为7.74 GHz。在0.495 V的电压下,这是典型的SRAM, 3.13 GHz仍然是可能的。成功率为100%。
然而,SRAM的制造并不复杂,因为它的结构相当简单,而且有可能实现冗余。在芯片设计中扩展SRAM已经成为一个主要问题,因此每个区域的带宽也变得越来越重要。硅的1R1RW HBI产率为100%,最高频率超过7 GHz,最低比特密度为11.2 Mbit/mm²,适用于任何8T SRAM存储器。
ARM在VLSI 2024上提出的高带宽实例是一个概念,展示了芯片设计的多方面发展。所有组件都参与其中,更快的SRAM对计算单元都有好处,无论是在处理器上还是在GPU /加速器上。SRAM是任何芯片设计的基本组成部分,因此它的重要性不容低估。
网友评论