美国英特尔验证36μm EMIB-T，Marvell定制HBM减60%芯片面积

2026-07-04 16:00

关键词:

维度网讯，随着晶体管密度缩放速度放缓，先进封装已成为主要的扩展途径。然而，人工智能加速器体积庞大，且需要极高的互连速度，导致封装本身也面临极限。圆形中介层限制了封装尺寸和晶圆利用率，HBM4E 技术在提高速度的同时使 I/O 数量翻倍，而多千瓦级封装则使传统的冷却架构难以承受。

ECTC是业界首屈一指的封装技术盛会。今年的发布内容与即将上市的商业产品密切相关。英特尔概述了EMIB-T集成、封装尺寸缩放以及未来的发展路线图。Marvell展示了如何通过定制HBM将接口逻辑从加速器中移除，同时缩短封装布线。台积电和微软将冷却剂直接集成到硅片中，而Marvell和Lightmatter则将光互连集成到封装中。

本次综述涵盖了 ECTC 2026 中最有可能在未来几年内塑造 AI 加速器方案的技术。

英特尔 EMIB-T

英特尔是ECTC展会上规模最大的企业演讲者。其重点展示的是EMIB-T。这是采用硅通孔（TSV）技术的下一代EMIB芯片。在最初发布之后，英特尔进一步完善了该架构和路线图，包括更小的凸点间距、更大的封装尺寸以及桥接功能。他们的展示表明，EMIB-T有望应用于谷歌的TPU v9，并且是大型封装AI加速器领域中，台积电CoWoS平台最可靠的替代方案。

EMIB-T 扩展测试芯片，硅含量为光罩的两倍。俯视扫描电镜图像显示，凸点间距分别为 110、55 和 36 微米。

英特尔已在采用两倍光罩尺寸硅片封装的芯片上验证了 EMIB-T 技术，其凸点间距为 36/35 微米。相比 Granite Rapids 封装中使用的 45 微米间距，凸点密度提高了 65%。Granite Rapids-AP 是一款大型封装，尺寸为 70 毫米 × 105 毫米，面积略小于 9 个光罩。目前，针对 36/35 微米凸点间距的验证工作正在扩展到 4.5 倍光罩尺寸的硅片封装，目标是在 2026 年底前完成认证。

下一个间距步骤也正在进行中，英特尔正在测试 25 µm 凸点间距，该间距基于一个由两个 1 个光罩硅芯片通过单个 3 毫米 × 18 毫米 EMIB-T 桥连接的芯片。

进一步缩小尺寸将变得更加困难。小于 25 µm 时，每个焊球中的焊料体积会变得非常小。短路、开路以及组装过程中导致的良率损失的可能性大大增加。EMIB-T 可以继续缩小尺寸，但限制因素从桥接布线密度转移到了焊球形成、布局精度和组装良率。

英特尔还展示了EMIB-T封装的尺寸极限。虽然可以实现全面板尺寸的封装，但英特尔将四分之一面板封装作为实际目标。他们展示了一个240毫米×240毫米的测试样品，面积大约相当于67个光刻掩模。然而，展位上的样品出现了严重的翘曲。在这个尺寸下，桥接只是问题的一部分。基板处理、翘曲、套刻精度和面板级图案化都成为首要的限制因素。英特尔也在评估先进的光刻技术，以确保在四分之一面板甚至全面板尺寸下，这些大尺寸基板的套刻精度足够高。

虽然凸点间距和封装尺寸很重要，但桥接电路同样至关重要。EMIB-T 比目前产品中使用的 EMIB 复杂得多。它增加了 TSV、更多金属层、电源网格和 MIM 电容层，使桥接电路能够同时传输高密度信号和垂直供电。英特尔展示了一个横截面图，其中包含 10 层金属层（包括 4 层布线层）以及位于 M1 和 M2 之间的 MIM 电容。英特尔重点介绍了其针对 HBM4E 的改进。

EMIB-T 中的“T”代表 TSV（硅通孔）。它们的作用是供电。在传统的 EMIB 中，非桥接区域的电源通过基板垂直传输，而桥接区域附近的电源则必须横向扩散到封装和芯片侧布线中。通过在桥接区域使用 TSV，电源可以直接通过桥接区域传输，从而显著缩短电流路径。英特尔声称，使用这些 TSV 可以将直流电压降降低 68% 到 80%。

HBM4E 的难点在于互连必须同时提升信号密度和供电能力。HBM4 的引脚数量是 HBM3 的两倍，并且 PHY 需要额外的电源轨，例如 VDDQ 和 VDDQL。这些电源轨会占用部分信号布线空间，从而提高剩余空间的信号密度。

为了解决这个问题，英特尔并没有对所有HBM通道采用相同的布线方式。它将最长的信号路径放置在布线更简洁的层上。在M9层，只有约28%的最长通道长度穿过布线最密集的区域，而在M3等较低层，这一比例上升至约84%，但这些通道的长度更短。这样可以避免串扰和插入损耗主要由布线最差的区域造成。

电源传输也转移到了桥接层。EMIB-M 在 M1 和 M2 之间引入了金属-绝缘体-金属 (MIM) 电容，而 EMIB-T 则在此基础上进行了改进。英特尔公布的电容密度为 500 nF/mm²，与英特尔 18A 的 MIM 电容大致相当。英特尔声称，与没有桥接 MIM 电容的 EMIB-T 封装相比，这些桥接电容可将电源传输网络 (PDN) 的交流阻抗降低 82% 以上。

英特尔还对采用 HBM4E 的 EMIB-T 进行了仿真。在 12 Gb/s 的速率下，未采用接收均衡时，英特尔的 UI 眼图宽度约为 67%。采用单抽头判决反馈均衡器 (DFE) 后，该值可提升至约 72.5%。DFE 是一种接收端电路，用于降低信号通过封装通道后先前比特的干扰。

英特尔还模拟了更高的传输速度，分别为 12.8 Gb/s、14 Gb/s 和 16 Gb/s。在所有测试速度下，用户界面视口宽度均保持在 60% 以上，焊盘电容略有下降。

英特尔的EMIB路线图超越了仅包含布线和电容的被动桥接技术。未来的版本将包括更高密度的桥接MIM电容、更大尺寸的高纵横比桥接芯片、小于25微米的凸点间距、主动桥接以及集成在EMIB芯片内部的电压调节器。英特尔还公开了基板核心嵌入式深沟槽电容（DTC）的概念以及嵌入在基片下方的>2500 nF/mm² eMIM-T电容，尽管尚未在已出货的EMIB产品中看到这些技术。

EMIB-T在多个方面仍落后于台积电的CoWoS平台。台积电已实现DTC/eDTC集成，并在集成电压调节器和有源局部硅互连（LSI）方面走得更远。EMIB-T缩小了差距，但英特尔仍在追赶一个已大规模运行多年的生态系统。

Marvell 定制 HBM

在 Marvell 2024 年的行业分析师日上，Marvell 宣布推出定制 HBM。当时，这只是一个模糊的说法，缺乏技术细节。HBM的设计一直围绕 JEDEC 兼容性展开：内存供应商提供的标准 DRAM 堆栈、加速器上的标准 HBM PHY，以及它们之间固定的宽接口。在 2025 年 Hot Chips 大会上，Marvell 展示了定制基础芯片的布局图。

在 ECTC 大会上，Marvell 最终提供了定制 HBM4E 的封装级细节。

JEDEC规范固定了HBM堆栈与主机之间的接口。这有利于互操作性：任何内存厂商的HBM都可以与任何兼容的主机配对。然而，这不利于功耗、性能和面积。主机ASIC必须实现标准的HBM PHY，并采用标准化的焊盘布局和分线规则，布线一个非常宽的并行接口。随着封装尺寸的增大和HBM速度的提升，这种固定的边界使得优化海岸线、布线密度、电源供应和信号完整性变得更加困难。

定制化HBM技术无需对DRAM核心芯片进行任何改动。取而代之的是，采用先进的逻辑工艺制造一个具有优化芯片间接口的定制基础芯片。该定制基础芯片可集成HBM控制器、管理和监控功能、定制逻辑以及扩展接口。

Marvell 声称，这使得用于 HBM PHY 和相关逻辑的主机 ASIC 占用空间减少了约 60%，从而直接释放出更多空间用于计算、缓存或 I/O。这种定制接口将大部分内存端接口移到了 HBM 基体芯片中。

Marvell 的示例使用了 1024 个通道，速率为 32 Gb/s，达到 4.1 TB/s，相当于 2048 位 JEDEC HBM4(E) 接口，速率为 16 Gb/s。

该封装的布线也变得更加容易，定制接口将中介层通道长度从 6.5 毫米缩短到 1.5 毫米，使 Marvell 能够在保持相同 9 个布线层和 2/2 微米线/间距 (L/S) 的同时增加带宽。

Marvell 的示例中使用有机重分布层 (RDL) 中介层代替硅，从而降低了封装成本。有机 RDL 的线宽/线宽比远小于 CoWoS-S 中的硅中介层或 CoWoS-L 和 EMIB-T 中的硅桥，这增加了布局难度。Marvell 依靠不同部分的定制屏蔽和布线模式来最大化带宽密度，同时控制串扰。

在GTC大会上，英伟达宣布Feynman将采用定制HBM。英伟达的理由可能与Marvell类似：更高的带宽、更低的功耗以及更少的HBM加速器芯片面积。Rubin GPU芯片面积中约有16%用于HBM相关的逻辑和PHY。定制HBM可以让英伟达将大部分负担转移到HBM基础芯片上。

定制化HBM还支持标准HBM链路之外的扩展接口。基础芯片可以充当辅助内存控制器，并将流量扇出到额外的内存，而不是强制所有内存流量都通过有限的加速器芯片边缘通道。这些额外的内存可以是容量更大、带宽更低的LPDDR，甚至是第二层HBM。这使得加速器能够在不占用外部I/O所需的宝贵芯片边缘通道的情况下扩展内存容量。这对于AMD即将推出的MI450和未来的MI500 GPU尤为重要，因为它们将支持LPDDR以增加内存容量。

三星HBM中介层

三星还展示了其基于中介层的 HBM4E 解决方案。HBM4E 将数据传输速率提升至 12 Gb/s 及以上，并将 I/O 引脚数量翻倍，从而增加了布线复杂性。HBM4E 所需的中介层数量可能是 HBM3E 的两倍，是 HBM2 的五倍。由于 I/O 引脚数量增加和数据传输速率提高，预计其功耗也将比 HBM3E 增加 86%，比 HBM2 增加 5.6 倍。

三星提出了一种8层硅中介层方案，据称与预估需求相比，层数减少了20%。该中介层采用重复的双信号/单地交错排列方式来屏蔽高速信号，其中75%的层用于信号布线。

中介层的另一个关键特性是超高密度电容（UHC）。三星并未明确说明具体的电容结构，但它们可能类似于英特尔EMIB-T MIM电容或台积电CoWoS DTC电容。UHC电容只能放置在M1层，而M1层也主要用于信号布线，因此可用面积有限。

如果布线不平衡，电容会被推向接口的一侧，导致逻辑侧和HBM侧之间的电源分配网络（PDN）性能不均衡。三星的布局将布线重新分配到M1层和其他层，从而使超高电容（UHC）能够更均匀地分布在整个接口上。这在保持布线密度可控的同时，降低了PDN阻抗和电压噪声。

三星 HBM 混合键合热学

三星还讨论了HBM的热问题，特别是混合键合技术。HBM堆叠层数越来越多，速度也越来越快，而其下方的逻辑芯片的功耗也越来越高。对于16层HBM来说，其热阻尚可接受，但随着未来几代产品向20层和24层HBM发展，就需要新的解决方案了。

三星对比了热压键合 (TCB) 和混合铜键合 (HCB) 在 2.5D GPU 封装（包含 2 个 GPU 芯片和 8 个 HBM 堆叠，类似于 Nvidia Blackwell 架构）中的 HBM 散热性能。结果表明，风冷可使内部 HBM 热阻降低 12.2%，液冷可降低 12.9%。总 HBM 热阻在风冷下可降低 3.5%，在液冷下可降低 7.7%。

由于HCB仅针对部分散热网络，因此改进效果并不均衡。三星将散热路径分为内部热阻、系统级热阻和GPU到HBM的串扰。内部热阻和串扰分别降低了约12.5%和9.8%，但包括导热界面材料和散热在内的系统级热阻却增加了约2.3%。

随着更多功率转移到HBM基片上（例如在内存密集型工作负载中），散热瓶颈会发生转移。这对于定制HBM尤其重要，因为其内存控制器和更多逻辑电路都集成到了基片上。GPU到HBM的串扰在总热阻中所占的比例会降低，从基片功耗增加1倍时的13%下降到基片功耗增加3倍时的5%。

三星表示，采用HCB技术可以提高进气温度或提高封装功率。据其估计，采用HCB技术后，在封装功率保持不变的情况下，进气温度可升高1-2°C；或者在温度保持不变的情况下，封装功率可提高约4%。三星还估计，散热功率将降低约7%。

三星还单独研究了HCB在堆叠层面的影响。这里的改进幅度更大：与TCB相比，基准HCB可将堆叠热阻降低约19%。增加HCB焊盘数量，焊盘密度增加2倍时，热阻降低幅度可达22.3%；焊盘密度增加4倍时，热阻降低幅度可达29.1%。

微流体冷却

台积电在CoWoS-R芯片上展示了直接硅冷却技术，该芯片应用于类似GPU的大型测试平台。CoWoS-R与CoWoS-S的区别在于前者采用的是有机材料而非硅基中介层。选择CoWoS-R是因为它具有更好的翘曲容差和工艺兼容性。该测试平台采用3.3倍光罩的中介层，包含4个SoC芯片和8个HBM堆叠层。每个SoC芯片由4组SoC加热器组成，这些加热器共同覆盖了大约一半的中介层面积。

台积电对比了三种方案：传统的带盖冷板封装、无盖冷板封装以及其微柱直接硅封装设计。带盖和无盖方案仍然采用传统的冷板和导热界面材料（TIM）。而最后一种方案则是在SoC芯片背面直接形成微柱。

采用常规冷却方式，流速为 1-2 升/分钟 (LPM) 时，带盖封装的散热量为 1.9-2.3 kW，而无盖封装的散热量为 2.5-3.0 kW，冷却水温度为 40 °C 的去离子水。两种方案在流速超过 4 LPM 后均达到饱和，因为导热界面材料 (TIM) 成为瓶颈。

微柱式测试车（ test vehicle ）在2升/分钟（LPM）的流速下与无盖冷板的测试结果相当，随后在高流速下表现更佳，在4升/分钟时散热功率为4千瓦，在8升/分钟时为5.3千瓦。台积电报告称，在整个测试车上，散热功率均匀地超过了5千瓦。微柱式结构使液态冷却剂更靠近热源，从而促进了散热性能的提升。

然而，微柱结构并非完美无缺。台积电必须在芯片封装（CoW）工艺完成后形成微柱，同时还要避免损坏CoWoS-R结构，并开发新型密封材料，以确保在封装翘曲和热膨胀系数不匹配的情况下，冷却剂仍能保持密封状态。测试样品通过了湿度敏感等级4（MSL4）测试，未出现氦气泄漏或密封剂分层现象。

微软的散热方案与台积电的不同之处在于散热结构。台积电采用的是硅微柱，而微软则采用了蚀刻在GPU硅片上的直线微通道。微软没有使用热测试平台，而是直接在Nvidia GH200 GPU上进行了测试。这可能使微软能够更准确地捕捉到真实的散热分布和热点区域。微软在GPU上测试了多种工作负载，例如HPCG和HPL，每种工作负载都具有不同的计算和内存压力特性。

在这些工作负载下，微软报告称，在 1 LPM 的流速下，GPU 的结到入口热阻降低了 51-60%。HBM 的改进幅度较小，仅为 27-37%，因为它仍然通过冷板和导热材料进行冷却。总体而言，这使得封装的热阻降低了 50%。

微软还展示了一些初步的可靠性数据。虽然散热性能很重要，但数据中心部署也需要高可靠性和低停机时间。在6个月的时间里，微软在约4370次观测中仅记录到9次潜在的堵塞事件。堵塞率随时间推移而下降，表明安装初期存在不稳定情况，随后进入较为稳定的运行阶段。即使6个月后，微通道中也没有可测量的硅腐蚀。在节点层面，GH200成功完成了为期3周的重复基准测试，随后又在稳定的封装功率下连续运行了1周。微软仍在测试集群层面的平均故障间隔时间（MTBF）和可用性。

韩国