本文由半导体产业纵横(ID:ICVIEWS)编译自semiengineering
随着越来越多的 SoC 在前沿技术上分解,行业学习范围不断扩大,为更多第三方芯片打开了大门。
将 SoC 分解成各个组成部分,然后以某种异构方式将这些部分和其他部分组合在一起的技术已初具规模,这得益于互连、复杂分区方面的进步,以及业界对什么可行、什么不可行方面的了解。
虽然即插即用的愿景没有改变,但实现这一愿景比最初想象的要复杂得多。它因应用程序和工作负载的不同而有很大差异,进而影响时间、延迟和成本。它还可能因封装类型、是否包含 AI、调度和优先级所需的软件数量以及所使用的互连类型而异。
Arm系统架构师兼研究员 Rob Dimond 表示,互连是粘合剂。它们包括位于芯片上的片上网络 (NoC)、位于芯片内的所有其他互连,以及跨芯片传输数据的UCIe芯片到芯片连接。互连还可与其他高速接口配合使用,将数据从一个边界传输到另一个边界。
“Chiplet 互连的根本挑战在于了解如何分解,”Cadence高级产品营销部总监 Arif Khan 表示。“你要划分计算和数据流问题。你的架构是什么?你是如何划分的?你有 chiplet 内的数据流,然后数据流经这些 chiplet。这完全取决于你的数据流向何处以及上下文是什么。例如,你要解决的问题是什么?如果你正在查看 GPU 类型的应用程序,你甚至无法将那么大的语言模型放入单个 GPU。你正在查看的是一个拥有数百万个 AI 工厂。然后你正在查看不同的一致性模型。你会发现,即使是标准协议也无法解决这个问题。”
如今,这些互连通常都是导线(尽管未来可能会有封装之间甚至封装内部的光互连,或者两者兼而有之)。但并非所有导线的行为方式都相同。它们可能直径不同,以不同的密度封装在一起,绝缘性也不同,甚至材料也不同。
Blue Cheetah首席执行官兼联合创始人 Elad Alon 表示:“你能获得的线路数量以及这些线路的特性非常不同。这就是你必须以不同方式做事的驱动力。另一个因素——基本上不是由物理驱动,而更多的是出于实用工程驱动——是人们常常希望隔离跨芯片边界的时序接口。当芯片采用 2.5D 或 3D 封装时,有一定的操作空间,但将这些时序接口彼此隔离是典型的设计决策。这主要源于它在不同的芯片中物理分区的想法。‘我不想做这种多次跨芯片时序收敛练习。’并不是说你不能。只是出于实际原因人们不想这样做。这是芯片互连与芯片上互连的另一个不同之处。片上互连将位于单个时钟域内,并可由更“标准”的布局布线流程驱动。但事实上,线路越少,意味着需要更快地运行它们。隔离时序接口是模拟人员实现这一目标的地方。显然,它尽可能小面积、低功耗。”
由于芯片互连需要通过芯片间连接传输数据,因此这些物理接口通常速度非常快但相对较窄。然而,与 SoC 互连不同,芯片互连通常像通信协议一样进行封装,而不像片上总线。
Arteris产品管理总监 Ashley Stevens 解释说:“芯片互连通常允许数据通过非常宽的接口以分组格式通过芯片间链路发送,这些数据可以序列化并通过链路发送。芯片间互连需要支持各种边带信号,在 SoC 中,这些信号通常由点对点信号处理,例如中断和电源管理。这些信号也需要以分组格式通过与正常内存和外围设备事务相同的链路从芯片间传输,因此不应被遗忘。”
这些互连也需要与应用相匹配。AlphawaveSemi产品营销和管理副总裁 Letizia Giuliano 表示:“Chiplet 需要高效的 D2D(芯片到芯片)互连,该互连在关键参数上表现优异。我们需要为 Chiplet 应用定制 D2D 互连,以优化封装中给定系统上该接口的总体 TCO(总拥有成本)。面积效率以带宽海岸线密度来衡量,该密度可实现每毫米海岸线最高 Tb/s 的数据传输。功率就是能源效率,pj/b 需要尽可能低。当我们在 Chiplet 中使用 D2D 互连时,我们会创建 I/O 电路的重复。物理层和数字逻辑都会被添加,它们需要减少对整体功率预算的影响并适应整体 TCO。”
延迟是一项关键的性能指标,需要尽量缩短发射器 (TX) 和接收器 (RX) 之间的传输时间。“D2D 互连的设计必须在电路复杂性和 PPA 之间取得微妙的平衡,这是同类产品中最好的,”Giuliano 说道。“这确保我们不会让电路过大而失去对应用空间的关注。例如,具有单端架构的简单接口和良好的电压调节平衡有助于提高电源效率。同时,模拟 TX 和 RX 中的紧凑电路需要仔细研究失配和噪声。”
要最大限度地发挥异构集成的优势,需要深入了解最终应用和工作负载,以及如何为该特定领域设计最佳解决方案。“我们不能脱离应用领域,也不能将总体 TCO 降至最低,因此 D2D 架构需要针对不同类型的封装和凸块间距进行设计。在设计系统时,我们需要考虑所有电路缺陷,以实现切实可行的实施,”Giuliano 指出。“我们正在从片上转向封装。在封装中的芯片系统中分解 SoC 芯片的自然方式是在封装上传输片上 SoC 网络,因此我们正在为标称的片上传输层添加物理层传输。”
在芯片中移动数据
有许多竞争协议可用于移动数据。AMBA CHI、UCIe 和 BoW 最为人所知。哪个组合最终胜出还有待观察。但它们本质上执行相同的功能,即在芯片之间快速移动数据。
Arm 的 Dimond 表示:“AMBA CHI是经过封装的、广泛使用的和公开授权的,并且是 AMBA CHI C2C 的基础,使其能够使用合适的芯片物理层和链路层在芯片之间进行连接。为了将主板上的组件聚合到一个封装中,最好在针对芯片优化的新物理层上使用已建立的互连标准。为了将 SoC 分解为多个芯片,使用已建立的 SoC 互连同样有意义。”
Arm 认为,chiplet 互连将从现有的板载互连或现有的 SoC 互连演化而来。但对于 chiplet 架构,需要考虑更多不同的层次。
Dimond 解释道:“对于物理层,芯片之间的芯片间互连可能会支持更少的物理连接,这些物理连接可在更长的距离内运行。可能需要 SerDes。对于 AMBA CHI C2C,协议被打包以支持在物理层上运行。协议层将需要一个架构规范来提供所需的长期稳定性,以支持随着时间的推移而重复使用,并且随着生态系统的出现,可能支持价值链中不同参与者之间的重复使用。”
在很大程度上,芯片到芯片的通信是一个分区问题,而且它在汽车设计中尤其具有挑战性。
西门子数字工业软件混合和虚拟系统副总裁 David Fritz 表示:“举个例子,我可以从 X 公司获得一个 chiplet,它上面有一个完美的 CPU 复合体,但没有 GPU。我正在尝试为 IVI 做点什么,因此我需要一个 GPU 来进行渲染。有些公司会说,‘如果我把我们的 GPU 放在一个独立的 chiplet 里,然后把这个 chiplet 称为 droplet,怎么样?’它只是一个不能独立的子系统模块。人们会创建这些 droplet,然后他们会说,‘你拿着我们的 droplet 去其他公司,他们会在它周围放上他们需要的东西。’所以现在发生的情况是,我们又回到了销售硬宏的阶段。‘我这里有 GPU,但我的内存在另一个 chiplet 上?’哦,等一下,这行不通,因为我没有 GPU 所需的带宽,无法支持高分辨率和多显示器。’所以,如果你没有工具来探索这个领域的复杂性,并得出更深层次、更硬性的、不直观或不明显的要求,那么你最终会做出错误的决定,而你最终也不会得到有竞争力的产品。”
异构系统中的分区不仅仅涉及硬件。软件也需要跨芯片兼容。
“如果你考虑推理,推理通常使用较小的数据集并据此做出决策,”Eliyan战略营销副总裁 Kevin Donnelly 说。“处理元素可能都包含在一个芯片内,你需要做的是与外界和内存进行互连。这决定了你拥有什么样的互连,以及这些互连需要什么样的带宽。这将推动类似推理的芯片组的分区。如果是训练,并且你要处理像 NVIDIA 那样的海量数据集,那么他们关心的是采用大量非常大的分解芯片并使它们看起来无缝衔接,就像它们实际上只是越来越大的单片芯片一样。在这些芯片中,他们需要尽可能紧密地互连 GPU 核心,并在芯片之间获得尽可能多的带宽。片外互连问题正是他们做出分区决策的原因,这也是他们将其旋转 90 度的原因,而之前其他人的做法是试图让两个巨大的单片芯片看起来像一个更大、更庞大的单片芯片。然后外部的连接进入 I/O 世界和其他内存。这就是片上互连在分区中发挥作用的方式。在软件层面,他们能够让它看起来像一个巨大的处理器,而不是两个分散的处理器,这让他们能够根据他们发布的和之前可用的性能获得出色的性能基准。”
这也可以称为横截面带宽和能耗。Eliyan 首席战略和业务官 Patrick Soheili 指出:“在芯片内部进行连接总是更有效率,但如果没有空间,你就别无选择。因此,一个决定由此做出。另一个决定是一个芯片需要以多快的速度与另一个芯片通信,即横截面带宽需要是多少,以及我是否可以将它们彼此分开而不是放在单片芯片中。这两个是软件分区,确保整个系统将 SIP 视为一个整体(这始终是其中的关键部分),与芯片策略无关,只是确保所有东西作为一个子系统协同工作。”
Chiplet 为互连实现带来了什么
Chiplet 系统的出现带来了创建可用于生产的实现的新挑战。“这需要一种新的方式来测试 D2D 接口以适应更高的数据速率,并允许测试和筛选出好的芯片,”Alphawave 的 Giuliano 说。“我们如何在晶圆或封装上测试 D2D 互连物理层?我们是否知道 HBM 学习是否适用于此,或者我们是否需要做不同的事情?我们现在讨论的是更高数据速率的链路,即 32Gbps,以及每引脚 64Gbps,它们连接着越来越多的 chiplet。通常,这是通过晶圆级不可能实现的高级凸块间距来实现的。在我们的 PHY 内部设计测试级结构至关重要,这样可以深入了解硅片的健康状况以及关键时序参数随时间变化的可观察性。”
Alphawave 实施了先进的测试和调试方法,使其工程团队能够使用内部环回和寄存器访问来测试链路。该公司还与 OSAT 合作实施结构测试,以确保对 D2D 结构的全面测试覆盖。
另一个新问题源于集成来自不同供应商和实现的 D2D 互连和芯片组,这些芯片组需要互操作。“今天,我们部署的大多数系统都只有一个供应商实现,但我们正在与生态系统合作伙伴和客户合作,为多供应商互操作性铺平道路。我们已经创建了测试平台并发布了芯片组,可以与其他方一起使用,以完成电气互操作性测试和协议测试,”Giuliano 指出。
Arteris 的 Stevens 表示,系统发现是芯片中需要标准化的另一个领域。“要创建一个芯片生态系统,他们需要能够‘发现’现有的东西,并协调形成一个系统,如果要求支持真正的芯片混合搭配。如今,芯片是作为一个单一系统设计和验证的,但缺乏如何将它们一起使用的灵活性。验证 IP 也是芯片的关键。为了实现互操作性,必须有业界信赖的可信‘黄金’验证 IP。这使得芯片设计能够向 VIP 验证,而不需要向其他芯片验证。”
还必须从互连的角度来看待整体内存映射。“内存映射是指对特定地址的访问如何映射到系统中的内存控制器,”史蒂文斯说。“在芯片系统中,内存访问可以跨芯片进行。这种映射可能会影响性能。细粒度映射会将访问均匀分布在芯片之间,但由于远程芯片的延迟较长,可能会导致性能问题。粗粒度映射可能更好,但访问可能不会均匀分布,因此需要做出一个棘手的权衡。系统架构师应该对此进行建模,但另一种方法是使此启动时间可配置,以便在硅片启动后进行试验。”
对于芯片架构,另一个重要的考虑因素是,没有一种 D2D 互连能够适合所有的芯片分区和架构。“了解目标 KPI 以选择正确的 D2D 链路和芯片分区配置至关重要,”Giuliano 指出。“我们利用我们的芯片定制硅片专业知识和 D2D 互连领导地位,指导我们的客户正确划分系统,并在实现最佳 TCO 和上市时间之间找到最佳折衷方案。一个重要的例子是封装技术,以及该配置所需的 D2D 配置。选择需要涉及芯片互连的所有层。然后,电气 PHY 层和封装类型被移动到特定于域架构的芯片互连协议和分区。”
图 1:Alphawave 的多标准 I/O 小芯片。来源:Alphawave Semi
随着对芯片互连的了解不断加深,最大的问题是多久才能出现商业芯片市场。虽然英特尔、AMD、NVIDIA 和苹果等公司已经在使用芯片,但这些芯片是专门为他们自己的设备设计的。拥有基本上即插即用的商用芯片仍然遥遥无期。
Synopsys技术产品管理高级总监 Tim Kogel 表示:“我们将看到的下一个阶段是,当前的参与者围绕其 IP 开放生态系统,允许使用配套的 chiplet。这将需要一整套架构方法和协作工具。尤其是在汽车行业,这是一个非常重要的趋势。欧洲有 imec 汽车 chiplet 计划 (ACP)。日本有汽车高级 SoC 研究 (ASRA) 联盟。有架构协作和物理方面的工作组。我们如何在信号级别使其工作?我们如何在宏观架构方面使其工作以将事物组合在一起?尤其是在汽车行业,有这种巨大的推动力,因为他们清楚地看到了使用 chiplet 概念来实现这种可扩展架构的好处。他们希望通过简单地说‘好的,这是一个 chiplet,这是两个,这是四个 chiplet’,从低端汽车转向中端汽车再到高端汽车。他们看到了巨大的经济规模,他们将通过 chiplet 路径来实现这一点。”
然而,在此之前,仍有许多工作要做。作为一个行业,我们仍在学习芯片和标准,它们都在不同的领域发挥作用,”是德科技信号完整性应用科学家兼高速数字应用产品经理 Chun-Ting “Tim” Wang Lee 表示。 “行业面临的最大挑战是专注于确保它们能够协同工作,因为总有一天它们必须互连并协同工作。”