美国英特尔验证36μm EMIB-T,Marvell定制HBM减60%芯片面积
2026-07-04 16:00
收藏

维度网讯,随着晶体管密度缩放速度放缓,先进封装已成为主要的扩展途径。然而,人工智能加速器体积庞大,且需要极高的互连速度,导致封装本身也面临极限。圆形中介层限制了封装尺寸和晶圆利用率,HBM4E 技术在提高速度的同时使 I/O 数量翻倍,而多千瓦级封装则使传统的冷却架构难以承受。

ECTC是业界首屈一指的封装技术盛会。今年的发布内容与即将上市的商业产品密切相关。英特尔概述了EMIB-T集成、封装尺寸缩放以及未来的发展路线图。Marvell展示了如何通过定制HBM将接口逻辑从加速器中移除,同时缩短封装布线。台积电和微软将冷却剂直接集成到硅片中,而Marvell和Lightmatter则将光互连集成到封装中。

本次综述涵盖了 ECTC 2026 中最有可能在未来几年内塑造 AI 加速器方案的技术。

英特尔 EMIB-T

英特尔是ECTC展会上规模最大的企业演讲者。其重点展示的是EMIB-T。这是采用硅通孔(TSV)技术的下一代EMIB芯片。在最初发布之后,英特尔进一步完善了该架构和路线图,包括更小的凸点间距、更大的封装尺寸以及桥接功能。他们的展示表明,EMIB-T有望应用于谷歌的TPU v9,并且是大型封装AI加速器领域中,台积电CoWoS平台最可靠的替代方案。

EMIB-T 扩展测试芯片,硅含量为光罩的两倍。俯视扫描电镜图像显示,凸点间距分别为 110、55 和 36 微米。

英特尔已在采用两倍光罩尺寸硅片封装的芯片上验证了 EMIB-T 技术,其凸点间距为 36/35 微米。相比 Granite Rapids 封装中使用的 45 微米间距,凸点密度提高了 65%。Granite Rapids-AP 是一款大型封装,尺寸为 70 毫米 × 105 毫米,面积略小于 9 个光罩。目前,针对 36/35 微米凸点间距的验证工作正在扩展到 4.5 倍光罩尺寸的硅片封装,目标是在 2026 年底前完成认证。

下一个间距步骤也正在进行中,英特尔正在测试 25 µm 凸点间距,该间距基于一个由两个 1 个光罩硅芯片通过单个 3 毫米 × 18 毫米 EMIB-T 桥连接的芯片。

进一步缩小尺寸将变得更加困难。小于 25 µm 时,每个焊球中的焊料体积会变得非常小。短路、开路以及组装过程中导致的良率损失的可能性大大增加。EMIB-T 可以继续缩小尺寸,但限制因素从桥接布线密度转移到了焊球形成、布局精度和组装良率。

英特尔还展示了EMIB-T封装的尺寸极限。虽然可以实现全面板尺寸的封装,但英特尔将四分之一面板封装作为实际目标。他们展示了一个240毫米×240毫米的测试样品,面积大约相当于67个光刻掩模。然而,展位上的样品出现了严重的翘曲。在这个尺寸下,桥接只是问题的一部分。基板处理、翘曲、套刻精度和面板级图案化都成为首要的限制因素。英特尔也在评估先进的光刻技术,以确保在四分之一面板甚至全面板尺寸下,这些大尺寸基板的套刻精度足够高。

虽然凸点间距和封装尺寸很重要,但桥接电路同样至关重要。EMIB-T 比目前产品中使用的 EMIB 复杂得多。它增加了 TSV、更多金属层、电源网格和 MIM 电容层,使桥接电路能够同时传输高密度信号和垂直供电。英特尔展示了一个横截面图,其中包含 10 层金属层(包括 4 层布线层)以及位于 M1 和 M2 之间的 MIM 电容。英特尔重点介绍了其针对 HBM4E 的改进。

EMIB-T 中的“T”代表 TSV(硅通孔)。它们的作用是供电。在传统的 EMIB 中,非桥接区域的电源通过基板垂直传输,而桥接区域附近的电源则必须横向扩散到封装和芯片侧布线中。通过在桥接区域使用 TSV,电源可以直接通过桥接区域传输,从而显著缩短电流路径。英特尔声称,使用这些 TSV 可以将直流电压降降低 68% 到 80%。

HBM4E 的难点在于互连必须同时提升信号密度和供电能力。HBM4 的引脚数量是 HBM3 的两倍,并且 PHY 需要额外的电源轨,例如 VDDQ 和 VDDQL。这些电源轨会占用部分信号布线空间,从而提高剩余空间的信号密度。

为了解决这个问题,英特尔并没有对所有HBM通道采用相同的布线方式。它将最长的信号路径放置在布线更简洁的层上。在M9层,只有约28%的最长通道长度穿过布线最密集的区域,而在M3等较低层,这一比例上升至约84%,但这些通道的长度更短。这样可以避免串扰和插入损耗主要由布线最差的区域造成。

电源传输也转移到了桥接层。EMIB-M 在 M1 和 M2 之间引入了金属-绝缘体-金属 (MIM) 电容,而 EMIB-T 则在此基础上进行了改进。英特尔公布的电容密度为 500 nF/mm²,与英特尔 18A 的 MIM 电容大致相当。英特尔声称,与没有桥接 MIM 电容的 EMIB-T 封装相比,这些桥接电容可将电源传输网络 (PDN) 的交流阻抗降低 82% 以上。

英特尔还对采用 HBM4E 的 EMIB-T 进行了仿真。在 12 Gb/s 的速率下,未采用接收均衡时,英特尔的 UI 眼图宽度约为 67%。采用单抽头判决反馈均衡器 (DFE) 后,该值可提升至约 72.5%。DFE 是一种接收端电路,用于降低信号通过封装通道后先前比特的干扰。

英特尔还模拟了更高的传输速度,分别为 12.8 Gb/s、14 Gb/s 和 16 Gb/s。在所有测试速度下,用户界面视口宽度均保持在 60% 以上,焊盘电容略有下降。

英特尔的EMIB路线图超越了仅包含布线和电容的被动桥接技术。未来的版本将包括更高密度的桥接MIM电容、更大尺寸的高纵横比桥接芯片、小于25微米的凸点间距、主动桥接以及集成在EMIB芯片内部的电压调节器。英特尔还公开了基板核心嵌入式深沟槽电容(DTC)的概念以及嵌入在基片下方的>2500 nF/mm² eMIM-T电容,尽管尚未在已出货的EMIB产品中看到这些技术。

EMIB-T在多个方面仍落后于台积电的CoWoS平台。台积电已实现DTC/eDTC集成,并在集成电压调节器和有源局部硅互连(LSI)方面走得更远。EMIB-T缩小了差距,但英特尔仍在追赶一个已大规模运行多年的生态系统。

Marvell 定制 HBM

在 Marvell 2024 年的行业分析师日上,Marvell 宣布推出定制 HBM。当时,这只是一个模糊的说法,缺乏技术细节。HBM的设计一直围绕 JEDEC 兼容性展开:内存供应商提供的标准 DRAM 堆栈、加速器上的标准 HBM PHY,以及它们之间固定的宽接口。在 2025 年 Hot Chips 大会上,Marvell 展示了定制基础芯片的布局图。

在 ECTC 大会上,Marvell 最终提供了定制 HBM4E 的封装级细节。

JEDEC规范固定了HBM堆栈与主机之间的接口。这有利于互操作性:任何内存厂商的HBM都可以与任何兼容的主机配对。然而,这不利于功耗、性能和面积。主机ASIC必须实现标准的HBM PHY,并采用标准化的焊盘布局和分线规则,布线一个非常宽的并行接口。随着封装尺寸的增大和HBM速度的提升,这种固定的边界使得优化海岸线、布线密度、电源供应和信号完整性变得更加困难。

定制化HBM技术无需对DRAM核心芯片进行任何改动。取而代之的是,采用先进的逻辑工艺制造一个具有优化芯片间接口的定制基础芯片。该定制基础芯片可集成HBM控制器、管理和监控功能、定制逻辑以及扩展接口。

Marvell 声称,这使得用于 HBM PHY 和相关逻辑的主机 ASIC 占用空间减少了约 60%,从而直接释放出更多空间用于计算、缓存或 I/O。这种定制接口将大部分内存端接口移到了 HBM 基体芯片中。

Marvell 的示例使用了 1024 个通道,速率为 32 Gb/s,达到 4.1 TB/s,相当于 2048 位 JEDEC HBM4(E) 接口,速率为 16 Gb/s。

该封装的布线也变得更加容易,定制接口将中介层通道长度从 6.5 毫米缩短到 1.5 毫米,使 Marvell 能够在保持相同 9 个布线层和 2/2 微米线/间距 (L/S) 的同时增加带宽。

Marvell 的示例中使用有机重分布层 (RDL) 中介层代替硅,从而降低了封装成本。有机 RDL 的线宽/线宽比远小于 CoWoS-S 中的硅中介层或 CoWoS-L 和 EMIB-T 中的硅桥,这增加了布局难度。Marvell 依靠不同部分的定制屏蔽和布线模式来最大化带宽密度,同时控制串扰。

在GTC大会上,英伟达宣布Feynman将采用定制HBM。英伟达的理由可能与Marvell类似:更高的带宽、更低的功耗以及更少的HBM加速器芯片面积。Rubin GPU芯片面积中约有16%用于HBM相关的逻辑和PHY。定制HBM可以让英伟达将大部分负担转移到HBM基础芯片上。

定制化HBM还支持标准HBM链路之外的扩展接口。基础芯片可以充当辅助内存控制器,并将流量扇出到额外的内存,而不是强制所有内存流量都通过有限的加速器芯片边缘通道。这些额外的内存可以是容量更大、带宽更低的LPDDR,甚至是第二层HBM。这使得加速器能够在不占用外部I/O所需的宝贵芯片边缘通道的情况下扩展内存容量。这对于AMD即将推出的MI450和未来的MI500 GPU尤为重要,因为它们将支持LPDDR以增加内存容量。

三星HBM中介层

三星还展示了其基于中介层的 HBM4E 解决方案。HBM4E 将数据传输速率提升至 12 Gb/s 及以上,并将 I/O 引脚数量翻倍,从而增加了布线复杂性。HBM4E 所需的中介层数量可能是 HBM3E 的两倍,是 HBM2 的五倍。由于 I/O 引脚数量增加和数据传输速率提高,预计其功耗也将比 HBM3E 增加 86%,比 HBM2 增加 5.6 倍。

三星提出了一种8层硅中介层方案,据称与预估需求相比,层数减少了20%。该中介层采用重复的双信号/单地交错排列方式来屏蔽高速信号,其中75%的层用于信号布线。

中介层的另一个关键特性是超高密度电容(UHC)。三星并未明确说明具体的电容结构,但它们可能类似于英特尔EMIB-T MIM电容或台积电CoWoS DTC电容。UHC电容只能放置在M1层,而M1层也主要用于信号布线,因此可用面积有限。

如果布线不平衡,电容会被推向接口的一侧,导致逻辑侧和HBM侧之间的电源分配网络(PDN)性能不均衡。三星的布局将布线重新分配到M1层和其他层,从而使超高电容(UHC)能够更均匀地分布在整个接口上。这在保持布线密度可控的同时,降低了PDN阻抗和电压噪声。

三星 HBM 混合键合热学

三星还讨论了HBM的热问题,特别是混合键合技术。HBM堆叠层数越来越多,速度也越来越快,而其下方的逻辑芯片的功耗也越来越高。对于16层HBM来说,其热阻尚可接受,但随着未来几代产品向20层和24层HBM发展,就需要新的解决方案了。

三星对比了热压键合 (TCB) 和混合铜键合 (HCB) 在 2.5D GPU 封装(包含 2 个 GPU 芯片和 8 个 HBM 堆叠,类似于 Nvidia Blackwell 架构)中的 HBM 散热性能。结果表明,风冷可使内部 HBM 热阻降低 12.2%,液冷可降低 12.9%。总 HBM 热阻在风冷下可降低 3.5%,在液冷下可降低 7.7%。

由于HCB仅针对部分散热网络,因此改进效果并不均衡。三星将散热路径分为内部热阻、系统级热阻和GPU到HBM的串扰。内部热阻和串扰分别降低了约12.5%和9.8%,但包括导热界面材料和散热在内的系统级热阻却增加了约2.3%。

随着更多功率转移到HBM基片上(例如在内存密集型工作负载中),散热瓶颈会发生转移。这对于定制HBM尤其重要,因为其内存控制器和更多逻辑电路都集成到了基片上。GPU到HBM的串扰在总热阻中所占的比例会降低,从基片功耗增加1倍时的13%下降到基片功耗增加3倍时的5%。

三星表示,采用HCB技术可以提高进气温度或提高封装功率。据其估计,采用HCB技术后,在封装功率保持不变的情况下,进气温度可升高1-2°C;或者在温度保持不变的情况下,封装功率可提高约4%。三星还估计,散热功率将降低约7%。

三星还单独研究了HCB在堆叠层面的影响。这里的改进幅度更大:与TCB相比,基准HCB可将堆叠热阻降低约19%。增加HCB焊盘数量,焊盘密度增加2倍时,热阻降低幅度可达22.3%;焊盘密度增加4倍时,热阻降低幅度可达29.1%。

微流体冷却

台积电在CoWoS-R芯片上展示了直接硅冷却技术,该芯片应用于类似GPU的大型测试平台。CoWoS-R与CoWoS-S的区别在于前者采用的是有机材料而非硅基中介层。选择CoWoS-R是因为它具有更好的翘曲容差和工艺兼容性。该测试平台采用3.3倍光罩的中介层,包含4个SoC芯片和8个HBM堆叠层。每个SoC芯片由4组SoC加热器组成,这些加热器共同覆盖了大约一半的中介层面积。

台积电对比了三种方案:传统的带盖冷板封装、无盖冷板封装以及其微柱直接硅封装设计。带盖和无盖方案仍然采用传统的冷板和导热界面材料(TIM)。而最后一种方案则是在SoC芯片背面直接形成微柱。

采用常规冷却方式,流速为 1-2 升/分钟 (LPM) 时,带盖封装的散热量为 1.9-2.3 kW,而无盖封装的散热量为 2.5-3.0 kW,冷却水温度为 40 °C 的去离子水。两种方案在流速超过 4 LPM 后均达到饱和,因为导热界面材料 (TIM) 成为瓶颈。

微柱式测试车( test vehicle )在2升/分钟(LPM)的流速下与无盖冷板的测试结果相当,随后在高流速下表现更佳,在4升/分钟时散热功率为4千瓦,在8升/分钟时为5.3千瓦。台积电报告称,在整个测试车上,散热功率均匀地超过了5千瓦。微柱式结构使液态冷却剂更靠近热源,从而促进了散热性能的提升。

然而,微柱结构并非完美无缺。台积电必须在芯片封装(CoW)工艺完成后形成微柱,同时还要避免损坏CoWoS-R结构,并开发新型密封材料,以确保在封装翘曲和热膨胀系数不匹配的情况下,冷却剂仍能保持密封状态。测试样品通过了湿度敏感等级4(MSL4)测试,未出现氦气泄漏或密封剂分层现象。

微软的散热方案与台积电的不同之处在于散热结构。台积电采用的是硅微柱,而微软则采用了蚀刻在GPU硅片上的直线微通道。微软没有使用热测试平台,而是直接在Nvidia GH200 GPU上进行了测试。这可能使微软能够更准确地捕捉到真实的散热分布和热点区域。微软在GPU上测试了多种工作负载,例如HPCG和HPL,每种工作负载都具有不同的计算和内存压力特性。

在这些工作负载下,微软报告称,在 1 LPM 的流速下,GPU 的结到入口热阻降低了 51-60%。HBM 的改进幅度较小,仅为 27-37%,因为它仍然通过冷板和导热材料进行冷却。总体而言,这使得封装的热阻降低了 50%。

微软还展示了一些初步的可靠性数据。虽然散热性能很重要,但数据中心部署也需要高可靠性和低停机时间。在6个月的时间里,微软在约4370次观测中仅记录到9次潜在的堵塞事件。堵塞率随时间推移而下降,表明安装初期存在不稳定情况,随后进入较为稳定的运行阶段。即使6个月后,微通道中也没有可测量的硅腐蚀。在节点层面,GH200成功完成了为期3周的重复基准测试,随后又在稳定的封装功率下连续运行了1周。微软仍在测试集群层面的平均故障间隔时间(MTBF)和可用性。

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com