中国响应式网站案例,彩票网站源码下载,网络推广工作内容怎么写,网站设计的评估文章目录 AI芯片常见概念前言常见概念AI芯片分类按照芯片的技术架构分GPU半定制化的 FPGA全定制化 ASIC神经拟态芯片 按应用场景分训练卡推理卡 按部署位置分国产AI卡资料汇总 AI芯片算力和能效比AI芯片算力AI芯片能效比 封装相关Chiplet技术3DIC三星多芯片集成联盟#xff08… 文章目录 AI芯片常见概念前言常见概念AI芯片分类按照芯片的技术架构分GPU半定制化的 FPGA全定制化 ASIC神经拟态芯片 按应用场景分训练卡推理卡 按部署位置分国产AI卡资料汇总 AI芯片算力和能效比AI芯片算力AI芯片能效比 封装相关Chiplet技术3DIC三星多芯片集成联盟Samsung Multi-Die Integration Alliance简介集成方式 台积电TSMC3D Fabric简介TSMC-SoICSoIC-X chip-on-waferSoIC-X wafer-on-wafer CoWoSCoWoS-SCoWoS-RCoWoS-L InFO简介InFO-PoPInFO-oS Interposer、基板和转接板 接口相关D2D和C2C芯片间和芯片内连接NVLink**速度更快的纵向扩展互连已成为当前的迫切需求****借助 NVIDIA NVLink 技术最大化地提升系统吞吐量****使用 NVIDIA NVLink 和 NVLink 交换机完全连接 GPU** Infinity FabricUCIe 内存接口DDRLPDDRGDDRHBM比较 与CPU连接PCIeCXL简介CXL技术的三种模式CXL.io、CXL.cache和CXL.memoryCXL技术的三种类型 存算一体存算一体架构的优势存算一体技术分类**数字存算一体与模拟存算一体对比****存算一体的存储介质****国内主要厂商研究进展** AI芯片常见概念
前言
最近参加了一些AI芯片开发者会议发现现在公司的热门研究方向集中在Chiplet和存算一体上而基于Chiplet又衍生出EDA工具、接口技术、先进封装等概念。由于对这些概念不是很清晰所以专门调研了一下总结成此文希望可以为大家提供一些帮助。
常见概念
AI芯片分类
AI芯片也被称为AI加速器或计算卡即专门用于处理人工智能应用中的大量计算任务的模块其他非计算任务通常由CPU负责。
AI芯片产品种类繁多通常有三大分类维度 应用场景、部署位置以及芯片架构 。
按照芯片的技术架构分
GPU
全名叫Graphics Processing Unit即图形处理单元在传统的冯·诺依曼结构中 CPU 每执行一条指令都需要从存储器中读取数据 根据指令对数据进行相应的操作。 从这个特点可以看出 CPU 的主要职责并不只是数据运算 还需要执行存储读取、 指令分析、 分支跳转等命令。深度学习算法通常需要进行海量的数据处理用 CPU 执行算法时 CPU 将花费大量的时间在数据/指令的读取分析上 而 CPU 的频率、 内存的带宽等条件又不可能无限制提高 因此限制了处理器的性能。 而 GPU 的控制相对简单大部分的晶体管可以组成各类专用电路、多条流水线使得 GPU 的计算速度远高于 CPU 同时GPU 拥有了更加强大的浮点运算能力可以缓解深度学习算法的训练难题释放人工智能的潜能。但 GPU 无法单独工作必须由 CPU 进行控制调用才能工作 而且功耗比较高。
半定制化的 FPGA
全名叫Field Programmable Gate Array即现场可编程门阵列其基本原理是在FPGA芯片内集成大量的基本门电路以及存储器用户可以通过更新 FPGA 配置文件来定义这些门电路以及存储器之间的连线。与 GPU 不同 FPGA 同时拥有硬件流水线并行和数据并行处理能力 适用于以硬件流水线方式处理一条数据且整数运算性能更高因此常用于深度学习算法中的推理阶段。不过 FPGA 通过硬件的配置实现软件算法因此在实现复杂算法方面有一定的难度。将 FPGA 和 CPU 对比可以发现两个特点 一是 FPGA 没有内存和控制所带来的存储和读取部分速度更快 二是 FPGA 没有读取指令操作所以功耗更低。 劣势是价格比较高、编程复杂、整体运算能力不是很高。 目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解决方案。
全定制化 ASIC
全名叫Application-Specific Integrated Circuit即专用集成电路是专用定制芯片即为实现特定要求而定制的芯片。定制的特性有助于提高 ASIC 的性能功耗比缺点是电路设计需要定制相对开发周期长 功能难以扩展。 但在功耗、可靠性、 集成度等方面都有优势尤其在要求高性能、低功耗的移动应用端体现明显。谷歌的 TPU、寒武纪的 GPU地平线的 BPU 都属于 ASIC 芯片。谷歌的 TPU 比 CPU 和 GPU 的方案快 30 至 80 倍与 CPU 和 GPU 相比 TPU 把控制电路进行了简化因此减少了芯片的面积降低了功耗。
神经拟态芯片
神经拟态计算是模拟生物神经网络的计算机制。 神经拟态计算从结构层面去逼近大脑其研究工作还可进一步分为两个层次一是神经网络层面与之相应的是神经拟态架构和处理器如 IBM 的 TrueNorth 芯片这种芯片把定制化的数字处理内核当作神经元把内存作为突触。 其逻辑结构与传统冯·诺依曼结构不同它的内存、CPU 和通信部件完全集成在一起因此信息的处理在本地进行克服了传统计算机内存与 CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通只要接收到其他神经元发过来的脉冲(动作电位) 这些神经元就会同时做动作。 二是神经元与神经突触层面与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元可实现高速无监督学习。
按应用场景分
根据AI算法步骤可分为训练training和推理inference两个环节。训练卡一般都可以作为推理卡使用而推理卡努努力不在乎时间成本的情况下大部分也能作为训练卡使用但通常不这么做。训练芯片通常拥有更高的计算能力和内存带宽以支持训练过程中的大量计算和数据处理。相比之下推理芯片通常会在计算资源和内存带宽方面受到一定的限制。同时二者支持的计算精度也通常不同训练阶段需要高精度计算因此常用高精度浮点数如fp32而推理阶段一般只需要int8就可以保证推理精度。
除了高带宽高并行度外就片内片外的存储空间而言训练芯片通常比较“大”这是训练过程中通常需要大量的内存来存储训练数据、中间计算结果以及模型参数。相较而言推理芯片可能无法提供足够的存储容量来支持训练过程。
训练卡
训练环节通常需要通过大量的数据输入训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构 运算量巨大需要庞大的计算规模 对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU 集群来完成 Google 的 TPU 系列 、华为昇腾 910 等 AI 芯片也支持训练环节的深度网络加速。
推理卡
推理环节是指利用训练好的模型使用新的数据去“推理”出各种结果。与训练阶段不同推理阶段通常就不涉及参数的调整优化和反向传播了它主要关注如何高效地将输入映射到输出。这个环节的计算量相对训练环节少很多但仍然会涉及到大量的矩阵运算。在推理环节中除了使用 CPU 或 GPU 进行运算外 FPGA 以及 ASIC 均能发挥重大作用。典型的推理卡包括NVIDIA Tesla T4、NVIDIA Jetson Xavier NX、Intel Nervana NNP-T、AMD Radeon Instinct MI系列、Xilinx AI Engine系列等。
按部署位置分
部署位置分为云端数据中心和边缘端。
云端数据中心具有强大的计算能力和海量的数据承担模型训练以及推理任务例如目前爆火的AIGC大模型对AI芯片要求是高性能和高吞吐量数据中心是目前高性能计算AI芯片核心应用场景
边缘端则使用训练好的模型进行直接推理更加注重实时性和低功耗主要应用场景包括机器人、智能驾驶、手机、物联网设备等。
参考资料 HiEV洞察 | AI芯片禁令下本土智驾承压能力全解析_文章_新出行。
国产AI卡资料汇总 AI芯片算力和能效比
AI芯片算力
定义AI芯片的算力是指芯片在单位时间内能够执行的基本运算次数它反映了芯片处理数据和执行计算任务的能力。常见的算力单位有TOPSTera Operations Per Second和FLOPSFloating Point Operations Per Second其中1 TOPS代表每秒可进行一万亿次10¹²操作1 TFLOPS表示每秒执行一万亿次浮点运算操作.计算方法以TOPS为例其计算公式为TOPS 时钟频率 × 乘法累加单元MAU数量 × 每个MAU的操作次数 。例如Intel的Core Ultra 7 155H在1.4GHz的时钟频率下配置有4096个INT8的MAU每个MAU在一个时钟周期内可以进行2次操作即一次乘法和一次加法其总计算能力为1.4GHz×4096×2 11 TOPS左右.
AI芯片能效比
定义能效比是衡量AI芯片性能的一个重要指标它表示芯片在执行特定任务时所消耗的能量与完成该任务所需的计算量之间的比例。通俗来说就是每消耗一瓦特功率芯片能够完成的计算量单位通常为TOPS/W.计算方法能效比 AI芯片算力TOPS÷ 功耗W。例如一个具有1瓦特功耗和2 TOPS算力的处理器其能效比为2 TOPS/W.
封装相关
Chiplet技术
Chiplet技术是一种将不同功能模块集成在同一芯片上的方法。它通过将芯片分解为更小的、可重复使用的模块可以灵活地组合不同的功能实现更高效的芯片设计。Chiplet是当前芯片领域的一个热点Chiplet是一类具有特定功能的晶片(die也称为裸片。这些晶片可以是使用不同工艺节点制造甚至是不同的半导体公司制造可以由不同的供应商提供可以采用不同材质(硅、砷化镣、碳化硅等)。多个Chiplet通过特定设计架构和先进封装技术集成在一起实现完整功能能突破目前单一芯片设计的瓶颈。和单一芯片设计模式相比Chiplet设计模式具有更短的设计周期、更低的设计成本、更高的良率等突出优点。
Chiplet技术的优势
灵活性 可以根据不同的需求组合不同的Chiplet实现不同的功能。可重用性 Chiplet可以重复使用减少开发成本和时间。可扩展性 可以通过增加或减少Chiplet来扩展芯片的功能。可定制性 可以根据不同的应用定制Chiplet实现更优的性能。
Chiplet技术的挑战
互连 Chiplet之间的互连需要高效的接口和协议。集成 Chiplet的集成需要复杂的芯片设计工具和方法。测试 Chiplet的测试需要新的测试方法和技术。 适用场景分析通过对不同工艺14nm、7nm、5nm、数量2 颗、3 颗、5 颗、方式SoC、MCM、InFO、2.5D的研究得出结论200mm² 以下的小芯片单一规格采用 Chiplet 技术必要性不大而 800mm² 以上的芯片采用 Chiplet 技术收益明显。因为 800mm² 的单芯片低良率导致的额外成本占总制造成本的 50% 以上。对于企业而言自研全部异构小芯片封装成 SoC 可能不划算但同构芯片合封大算力芯片则较为划算。此外Chiplet 技术能实现高中低不同配置的芯片产品通过小芯片的复用摊销一次性投入成本产生巨大收益。
3DIC
随着芯片制造工艺不断接近物理极限芯片的布局设计——异构集成的 3DIC 先进封装以下简称“3DIC”已经成为延续摩尔定律的最佳途径之一。三维集成电路 (3DIC) 是一种用于半导体封装的芯片堆叠技术为半导体行业带来了新的效率、功率、性能和外形尺寸优势。3DIC 电路是在单个封装上通过晶圆彼此堆叠或芯片与晶圆堆叠而成各层之间通过硅通孔 (TSV) 实现互连。
3DIC 将不同工艺制程、不同性质的芯片以三维堆叠的方式整合在一个封装体内提供性能、功耗、面积和成本的优势能够为 5G 移动、HPC、AI、汽车电子等领先应用提供更高水平的集成、更高性能的计算和更多的内存访问。然而3DIC 作为一个新的领域之前并没有成熟的设计分析解决方案使用传统的脱节的点工具和流程对设计收敛会带来巨大的挑战而对信号、电源完整性分析的需求也随着垂直堆叠的芯片设计流行而爆发式增长。 参考资料什么是 3D-IC| 3D-IC 技术的优势和概述 | Cadence
三星多芯片集成联盟Samsung Multi-Die Integration Alliance
简介
通过与三星先进晶圆代工生态系统多芯片集成(MDI)联盟的合作三星电子晶圆代工业务(三星晶圆代工)正在建立更强大的2.5D和3D异构集成封装生态系统。
三星晶圆代工结合了EDA、IP、DSP、存储器、OSAT、基板和测试, 为尖端封装技术提供一站式封装服务。
通过该联盟客户和合作伙伴可以实现硅片和系统级创新同时创造下一代高性能计算(HPC)、移动和汽车产品。
DSP: 设计解决方案合作伙伴 (Design Solution Partner)OSAT: 外包半导体组装和测试 (Outsourced Semiconductor Assembly and Test)HPC: 高性能计算 (High Performance Computing)
参考资料SAFE™-多芯片集成MDI联盟 | Foundry | 三星半导体官网
集成方式
Horizontal Integration水平集成包括 I-Cube 和 H-Cube 两种方式。 I-Cube 2.5D 封装2.5D封装技术通过并行水平芯片放置防止热量积存并扩展性能。三星以硅通孔(TSV)和后道工序(BEOL)为技术基石整合两个以上的不同芯片使之完美协作让系统发挥11 2的功能。为现代器件的需求提供强而有力的解决方案。I-CUBE SI-CUBE S 兼具高带宽和高性能的优势即使在大中介层下仍具有出色的翘曲控制能力。它不仅具有超低存储损失和高存储密度的特点同时还大幅改进了热效率控制能力。 此外I-CUBE S 是一种异构技术将一块逻辑芯片与一组高带宽存储器 (HBM) 裸片水平放置在一个硅中介层上实现了高算力、高带宽数据传输和低延迟等特点。I-Cube E I-Cube E 技术采用硅嵌入结构不仅具有硅桥的精细成像优势也同时拥有PLP的技术特点大尺寸、无无硅通孔 (TSV) 结构的RDL 中介层。H-CubeH-Cube 是一种混合基底结构将精细成像的 ABFAjinomoto Build-up Film基底和 HDI高密度互连基底技术相结合可在 I-Cube 2.5D 封装中实现较大的封装尺寸。 Vertical Integration垂直集成包括 X-Cube 方式。 X-Cube 3D IC3D IC封装通过垂直堆叠的方式大幅地节省了芯片上的空间。并藉由压缩芯片之间的距离来提升性能及减少整体面积。3DIC封装技术不仅大幅降低了大芯片在结构上的风险同时能够保持低成本、高带宽和低能耗等优势。X-Cube (微凸块)X-CUBE 是先进封装技术的一个巨大飞跃这种技术采用 在 Z 轴堆叠逻辑裸片的方法提高了动态键合能力。 凭借这些创新三星得以快速推广其 Chip-on-Wafer和铜混合键合技术 通过增加每个堆栈的芯片密度进一步提升 X-CUBE 的速度或性能。X-Cube铜混合键合HCB铜混合键合就芯片布局灵活性的观点而言与传统的芯片堆叠技术相比铜混合键合技术具有极大的优势。Samsung Foundry 正在开发超精细的铜混合键合技术例如低于 4 微米的规格。 参考链接
先进封装 | Foundry | 三星半导体官网先进异构集成 | Foundry | 三星半导体官网
台积电TSMC3D Fabric
简介
台积电的3DFabric包括前端和后端技术。TSMC的前端技术或者叫台积电-SoIC®系统集成芯片使用最先进的硅晶圆厂的精确度和方法用于3D硅堆叠。台积电还拥有多个专门的后端晶圆厂用于组装和测试硅芯片包括3D堆叠芯片并将其处理成封装设备。台积电3DFabric的后端技术包括CoWoS®和InFO系列封装技术。
参考资料3DFabric - 台湾积体电路制造股份有限公司
TSMC-SoIC
台积电 SoIC® 服务包括半导体、存储芯片、晶圆、集成电路的定制制造新产品开发的产品研究、定制设计与测试以及电气和电子产品、半导体、半导体系统、半导体单元库、晶圆和集成电路的技术咨询服务。
SoIC-X chip-on-wafer
台积电 SoIC® 是什么
台积电 SoIC® 是推进异构小芯片集成的关键技术支柱。这种集成可缩小尺寸并提升性能。台积电 SoIC® 具有超高密度垂直堆叠特性以实现高性能、低功耗和最小的电阻 - 电感 - 电容RLC。
台积电 SoIC® 的主要特点
异构集成HI将不同芯片尺寸、功能和晶圆节点技术的已知合格芯片KGD进行异构集成。 a芯片分割前的片上系统SoCb、c、d不同的台积电 SoIC® 分割小芯片及重新集成方案
卓越的可扩展性凭借创新的键合方案台积电 SoIC® 技术实现了芯片输入 / 输出I/O键合间距的强大扩展性以实现高密度的芯片到芯片互连。键合间距从亚 10 微米规则起。与当前最先进的封装解决方案相比短的芯片到芯片连接可实现更小的外形尺寸、更高的带宽、更好的电源完整性PI、信号完整性SI和更低的功耗。 整体 3D 系统集成台积电 SoIC® 技术将同质和异构小芯片集成到单个类似 SoC 的芯片中具有更小的占位面积和更薄的外形可整体集成到先进的晶圆级系统集成WLSI中即晶圆基底芯片CoWoS®或集成扇出型封装InFO。从外部看集成芯片看起来像普通的 SoC但内部嵌入了异构集成功能。 SoIC-X wafer-on-wafer
SoIC - X晶圆堆叠技术通过晶圆堆叠工艺实现异构和同质的3D硅集成。紧密的键合间距和薄的硅通孔TSV能实现最小的寄生效应从而获得更好的性能、更低的功耗、更短的延迟以及更小的外形尺寸。SoIC - X晶圆堆叠技术适用于高良率节点以及相同芯片尺寸的应用或设计。 参考资料TSMC-SoIC® - 台湾积体电路制造股份有限公司
CoWoS
CoWoS-S
CoWoS® - S带有硅中介层的晶圆基底芯片平台为人工智能AI和超级计算等超高性能计算应用提供了一流的封装技术。这个晶圆级系统集成平台在较大的硅中介层区域上提供高密度互连和深沟槽电容器以容纳各种功能性顶层芯片/裸片包括逻辑小芯片并在其上方堆叠高带宽内存HBM立方体。目前面积达3.3倍掩模版尺寸或约2700平方毫米的中介层已可用于生产。对于大于3.3倍掩模版尺寸的中介层推荐使用CoWoS® - L和CoWoS® - R平台。不同的互连选项提供了更大的集成灵活性以满足性能目标。 CoWoS-R
CoWoS® - R带有扇出型再分布层RDL中介层的硅中介层晶圆基底芯片是 CoWoS® 先进封装系列的一员它利用 RDL 中介层作为片上系统SoC和 / 或高带宽内存HBM之间的互连来实现异构集成。RDL 中介层由聚合物和铜走线组成相对灵活。这增强了 C4 焊点的完整性并使封装能够扩展其尺寸以满足非常复杂的功能需求。 CoWoS® - R 的主要特点包括
多达 6 层铜的 RDL 中介层用于布线最小间距为 4 微米线宽 / 间距为 2 微米。RDL 互连通过较低 RC 值的布线提供良好的信号和电源完整性以实现高数据传输速率。共面的地 - 信号 - 地 - 信号 - 地GSGSG结构以及六层 RDL 互连的层间接地屏蔽提供了卓越的电气性能。RDL 层和 C4 / 底部填充UF层由于 SoC 与相应基板之间的热膨胀系数CTE失配而提供了出色的缓冲。C4 凸块区域的应变能密度大大降低。 CoWoS-L
CoWoS® - L 是 CoWoS®晶圆基底芯片平台上的后芯片封装之一。它结合了 CoWoS® - S 和 InFO集成扇出型封装技术的优点通过使用带有局部硅互连LSI芯片进行芯片到芯片互连以及 RDL 层进行电源和信号传输的中介层提供了最灵活的集成方式。
CoWoS® - L 的主要特点包括
LSI 芯片通过多层亚微米铜线实现高布线密度的芯片到芯片互连。LSI 芯片在每个产品中可以具有多种连接架构例如片上系统SoC到 SoC、SoC 到小芯片、SoC 到高带宽内存并且可以在多个产品中重复使用。相应的金属类型、层数和间距与 CoWoS® - S 的产品一致。基于模塑的中介层在正面、背面具有宽间距的 RDL 层以及用于传输信号和电源的穿透扇出型通孔TIV在高速传输过程中高频信号的损耗较低。能够在 SoC 芯片下方集成额外的元件如独立嵌入式深沟槽电容器以改善电源管理。 参考资料CoWoS® - 台湾积体电路制造股份有限公司
InFO
简介
InFO 是一个创新的晶圆级系统集成技术平台具有高密度再分布层Redistribution LayerRDL和穿透扇出型通孔Through InFO ViasTI可在包括移动和高性能计算在内的各种应用中实现高密度互连和高性能。InFO 平台提供针对特定应用优化的 2.5D 和 3D 选项。
InFO-PoP
InFO - PoP 是业界首个 3D 晶圆级扇出型封装具有高密度 RDL 和 TIV用于将移动应用处理器与动态随机存取存储器DRAM集成。InFO - PoP 比倒装芯片叠层封装具有更好的电气和热性能且外形更薄因为它没有有机基板或 C4 凸块。 InFO-oS
InFO - oS利用集成扇出型InFO技术具有更高密度的2/2微米再分布互连RDL线宽/间距用于为5G网络应用集成多个先进逻辑小芯片。它能够在片上系统SoC上实现混合焊盘间距最小输入/输出I/O间距为36微米最小C4铜凸块间距为130微米并在110x110毫米基板上实现2.5倍掩模版尺寸的InFO。预计在各种下一代产品中会更多地采用小芯片封装。 参考资料InFO (Integrated Fan-Out) Wafer Level Packaging - 台湾积体电路制造股份有限公司
Interposer、基板和转接板
Interposer 定义Interposer是一种中介层技术用于实现芯片之间的水平互连和垂直互连。Interposer是一种中介层常用于分布式系统中它可以帮助上层或下层的节点之间进行信息交换比如连接两个芯片。Interposer通常可以使用微凸点ubump和C4凸点C4 bump与芯片、封装基板进行电性能互连实现芯片与封装基板之间的信息交换。Interposer可以用于提高芯片的性能和带宽以及使芯片更加紧凑。功能通常是一个薄型的硅或玻璃基板上面布满了微凸点和再布线层(RDL)这些微凸点和RDL用于实现芯片之间的互连。 基板(Substrate) 定义基板是制造IC的基本材料主要用于支撑和连接电子元器件。功能基板具有导电、绝缘和支撑三个方面的功能是电子设备中电路的重要组成部分。 转接板(Adapter Board) 定义转接板是一种用于连接或转换不同接口或电气信号的设备。功能转接板通常由电路板、连接器和其他电子元件组成用于将一种接口类型的信号转换为另一种接口类型的信号。
参考链接
硅中介层与封装技术从Substrate到RDLInterposer和TSV什么是硅中介层 - 知乎
接口相关
D2D和C2C
随着chiplet的兴起Die2Die的高速互联越来越重要相比于传统的C2CChip2Chip互联D2DDie2Die的片间距离很近10mm量级且这些小的chip裸片终形成一个封装即多芯片模块MCM。所以D2D的互联信道短干扰和损耗小就出现了串口和并口两种互联总线。而C2C的高速互联都是高速串口。
C2C 互联 在不同芯片之间的数据传输可能位于不同封装实体中适用于需要在不同芯片或模块间进行数据传输的场景如服务器节点间的连接、多板卡系统或者大型电子设备中的芯片间通信。 常见的SOC上板级互联高速接口用的PCIE和XGMAC(1G MAC /10GMAC)。特别是XGMAC在车载领域用的较多用于不同控制域之间的芯片互联加上以太网的协议可以支持灵活的多个芯片互联。D2D 互联 专注于在同一个封装体内不同芯片裸片Die之间的数据传输。 适用于高性能计算HPC、人工智能AI和网络应用。D2D现在有并行和串行两种互联方案业界巨头各有各的互联接口但是自2022年Universal Chiplet Interconnect Express UCIE的出现【Intel、AMD、ARM、高通、三星、台积电、日月光、Google Cloud、Meta和微软等公司联合推出的Die-to-Die互连标准】有望统一D2D的接口标准。 参考资料Die2Die(D2D)和chip2chip(C2C)之间的高速互联接口
芯片间和芯片内连接
到目前为止已经成功商用的Die-to-Die互连接口协议多达十几种主要分为串行接口协议和并行接口协议。串行接口及协议有LR、MR、VSR、XSR、USR、PCIe、NVLinkNVIDIA用于Cache一致性的CXL、CCIX、TileLink、OpenCAPI等并行接口及协议有AIB/MDIOIntel、LIPINCONTSMC、Infinity FabricAMD、OpenHBIXilinx、BoWOCP ODSA、INNOLINKInnosilicon等。比较而言串行接口一般延迟比较大而并行接口可以做到更低延迟但也会消耗更多的Die-to-Die互连管脚而且因为要尽量保证多组管脚之间延迟的一致所以每个管脚不易做到高速率。
NVLink
速度更快的纵向扩展互连已成为当前的迫切需求
是否能释放百亿亿次级 (Exascale) 计算和万亿参数 AI 模型的全部潜力取决于服务器集群中每个 GPU 之间能否快速、顺畅地通信。第五代 NVIDIA® NVLink® 是一种纵向扩展的互连可为万亿和数万亿参数 AI 模型释放加速性能。
借助 NVIDIA NVLink 技术最大化地提升系统吞吐量
第五代 NVLink 大幅提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接总带宽可达 1.8 TB/s比上一代产品提高了两倍是 PCIe 5.0 带宽的 14 倍之多。72-GB200 GPU NVLink 域 (NVL72) 等服务器平台利用该技术为当今异常复杂的大型模型提供更高的可扩展性。 使用 NVIDIA NVLink 和 NVLink 交换机完全连接 GPU
NVLink 是一种 GPU 之间的直接互连双向互连速度达 1.8 TB/s可扩展服务器内的多 GPU 输入/输出 (IO)。NVIDIA NVLink 交换机 ASIC 可连接多个 NVLink实现在单个机架内和多个机架间以 NVLink 能够达到的最高速度进行多对多 GPU 通信。
为了支持高速集合运算每个 NVLink 交换机都配有 NVIDIA SHARP™ 技术引擎可用于网络内归约和组播加速。 参考资料NVLink 和 NVSwitch卓越的 HPC 数据中心平台 | NVIDIA
Infinity Fabric
AMD从Ryzen这代起启用了新的芯片内、外部互连Infinity Fabric。
Infinity Fabric实际是由传输数据的Infinity Scalable Data Fabric(SDF)和负责控制的Infinity Scalable Control Fabric(SCF)两个系统组成如果把Infinity SDF比作芯片运输数据的血管Infinity SCF就是芯片的神经了。 SDF的设计目标是连接很多引擎的情况下仍能保持传输数据的高拓展性。而SCF则是将不同的SoC纳入同一控制下的系统。这些SoC不仅包括桌面版的CPU Summit Ridge还包括服务器的CPU Naples、移动版的APU Raven Ridge、以及GPU Vega系列。Ryzen以后的AMD SoC都将基于Infinity Fabric打造。
IF是将数据传输和控制集为一体的AMD自主IP算得上是内部机密不会对其他厂商公开规格。因为IF算是AMD为了给自家产品提供互联才开发的但其他厂商的设计如果想获取授权集成IF就很容易。
Infinity Fabric SDF在片上on die和芯片间连接off-die**有两个不同的系统。**片上的SDF在芯片里将CPU核心、GPU核心、IMC等连在一起而芯片间的SDF负责在封装上将不同的die连在一起或者多路插槽连接。
这些Infinity Fabric的逻辑层都是通用的逻辑层协议通用了on-die和off-die连接协议无需转换。
Infinity Fabric是具有高拓展性的协议在一定节点数量内能保持高效率SDF至少在64核内能保持良好的拓展性能包括off-die。Papermaster称双路也能带来几乎两倍的性能。
参考资料AMD 芯片基石Infinity Fabric解析 - MoePC
UCIe
UCIe 即Universal Chiplet Interconnect Express是Intel、AMD、ARM、高通、三星、台积电、日月光、Google Cloud、Meta和微软等公司联合推出的Die-to-Die互连标准其主要目的是统一Chiplet芯粒之间的互连接口标准打造一个开放性的Chiplet生态系统。UCIe在解决Chiplet标准化方面具有划时代意义。
UCIe全称Universal Chiplet Interconnect Express协议定义了提供高带宽低延迟高功耗效率低成本的芯粒Chiplet或者简称Die间互联的协议。
针对日益增长的高性能计算存储存算等领域的高带宽低延迟需求UCIe协议定义的通用互联协议。各芯片Die间可以通过UCIe接口实现数据互通信。
目前UCIe标准规范已经进化到2.0版本。增强了链路管理调试和测试的需求也增加了UCIe-3D互联的支持进一步降低了pitch间距。
作为标准接口协议UCIe 互联协议支持多种上层协议及封包模式包括PCIeCXL Transaction Layer以及Stream数据模式RAW Mode。
UCIe标准协议展示了典型的UCIe package内互联的应用 参考资料UCIe 协议和背景介绍-CSDN博客
内存接口
以DDR开头的内存适用于服务器、云计算、网络、笔记本电脑、台式机和消费类应用支持更宽的通道宽度、更高的密度和不同的形状尺寸。
以LPDDR开头的内存适合面向移动和汽车这些对规格和功耗非常敏感的领域提供更窄的通道宽度和多种低功耗运行状态。
以GDDR开头代表的是显卡显存的参数面向需要极高吞吐量的数据密集型应用程序例如图形相关应用程序、数据中心加速和 AI。图形 DDR (GDDR) 和高带宽存储器 (HBM) 是这一类型的标准。 DDR
DDR是一种技术中国大陆工程师习惯用DDR称呼用了DDR技术的SDRAM而在中国台湾以及欧美工程师习惯用DRAM来称呼。DDR是Double Data Rate的缩写即“双比特翻转”。
DDR的规范名称应该为DDR SDRAM英文全称Double Data Rate Synchronous Dynamic Random Access Memory中文意思为双倍速率同步动态随机存储器是在SDRAM基础上发展而来的存储器。
LPDDR
LPDDRLow Power Double Data Rate SDRAM低功耗双倍速率动态随机存取存储器是DDR SDRAM的一种是JEDEC固态技术协会JEDEC Solid State Technology Association面向低功耗内存而制定的通信标准以低功耗著称主要针对于移动端电子产品。LPDDR拥有比同代DDR内存更低的功耗和更小的体积该类型芯片主要应用于移动式电子产品等低功耗设备上。
GDDR
GDDR是在DDR的基础上多了GGraphics前缀GDDR是Graphics Double Data Rate的缩写为显存的一种GDDR是为了设计高端显卡而特别设计的高性能DDR存储器规格其有专属的工作频率、时钟频率、电压因此与市面上标准的DDR存储器有所差异与普通DDR内存不同且不能共用。一般它比主内存中使用的普通DDR存储器时钟频率更高发热量更小所以更适合搭配高端显示芯片。其特点是高带宽、高延时。
当应用程序越来越多要进行3D显示及演算时频繁地读取在显卡中的SDRAM或SGRAM保存的连续画面图像数据的速度开始不能满足需求人们研发了GDDR它是为了代替旧式显存的不足而出现。
HBM
HBM全称High Bandwidth Memory和GDDR区别是采用垂直堆叠半导体工艺生产的的存储芯片通过被称为“硅透”(TSV)的线相互连接实现低功耗、超宽带通信通道相比GDDR5减少了通信成本单位带宽能耗更低制作工艺更高所以极大减少晶元空间。但加工成本更高。一般一个HBM内存是由4个HBM的Die堆叠形成 比较
DDR、LPDDR和GDDR性能和功耗比较 GDDR和HBM2比较 HBM更加小巧。两者的带宽
GDDR512 channel ×28GB/s 336GB/s
HMB: 4 stack × 128 512GB/s 参考链接
DDR LPDDR Rank 和Channel区别_lpddr channel-CSDN博客GDDR6 vs DDR4 vs HBM2?为什么CPU还不用GDDR异构内存的未来在哪里
与CPU连接
PCIe
Peripheral Component Interconnect Express简称PCI-E官方简称PCIe是计算机总线的一个重要分支它沿用既有的PCI编程概念及信号标准并且构建了更加高速的串行通信系统标准。
PCIe保证了兼容性支持PCI的操作系统无需进行任何更改即可支持PCIe总线。这也给用户的升级带来方便。由此可见PCIe最大的意义在于它的通用性不仅可以让它用于南桥和其他设备的连接也可以延伸到芯片组间的连接甚至也可以用于连接图形处理器这样整个I/O系统重新统一起来将更进一步简化计算机系统增加计算机的可移植性和模块化。 参考链接PCI Express - 维基百科自由的百科全书
CXL
简介
CXLCompute Express Link是一种高速串行协议它允许在计算机系统内部的不同组件之间进行快速、可靠的数据传输。CXL在2020年推出由英特尔、戴尔和惠普等公司共同设计。它旨在解决高性能计算中的瓶颈问题包括内存容量、内存带宽和I/O延迟等问题。CXL还可以实现内存扩展和内存共享并且可与计算加速器如GPU、FPGA等外设通信提供更快、更灵活的数据交换和处理方式。
CXL技术不仅提供了高速传输还支持内存共享和虚拟化使设备之间的协作更加紧密和高效。这种技术有助于满足现代数据中心对大规模处理和分析的需求同时也能够为AI、机器学习、区块链等新兴应用提供更好的支持。
CXL技术的三种模式CXL.io、CXL.cache和CXL.memory
CXL协议包含三个子协议
CXL.io这种模式可以将内存扩展到外部设备使得数据的传输速度更快。CXL.io通过PCIe总线连接CPU和外部设备这样CPU就可以与外部设备共享内存并且可以直接访问外部设备的I/O资源。
CXL.cache这种模式可以通过将内存缓存到外部设备中来提高性能。CXL.cache模式允许CPU在本地缓存中保留最常用的数据而将不常用的数据保存在外部设备中。这样可以减少内存访问时间提高整体系统性能。
CXL.memory这种模式可以将外部设备作为主内存使用从而实现更大的内存容量。CXL.memory模式允许CPU将外部设备看作是扩展内存从而可以存储更多的数据。这种方式可以提高系统的可靠性因为即使发生了内存故障CPU仍然可以通过外部设备继续运行。 CXL.io是Compute Express LinkCXL规范中定义的物理层接口可以提供比传统PCIe更低的延迟、更高的带宽和更好的可扩展性。
CXL.io通过使用SerDes技术一种将串行数据转换为并行数据以及反向转换的技术在单个物理通道上同时传输多个不同的数据流。这些数据流可以包括带宽密集型的数据流、低延迟的命令和控制信息以及配置寄存器和状态信息。CXL.io还支持热插拔和链路训练等高级特性。
CXL.io的物理层规范定义了信号的电气特性、时序要求和连接器接口以确保高可靠性和高性能。CXL.io采用4x25Gbps或3x32Gbps的信号速率并支持单向或双向通信。连接器方面CXL.io采用40个针脚的SMT连接器其中27个针脚用于数据传输其余用于电源、地线和时钟信号。
CXL技术的三种类型
Type 1通过 PCIe 插槽安装的加速卡或附加卡。这些卡可以与现有系统集成并通过 CXL 接口与 CPU 直接通信以提供更快的数据传输速度。用于网卡这类高速缓存设备。
Type 2具有所有 Type 1 设备的功能通常用于具有高密度计算的场景。比如 GPU 加速器。
Type 3一种专用的存储设备与主机处理器直接通信并且可以使用 CXL 协议来实现低延迟、高吞吐量的数据传输。用作内存缓冲器用于扩展内存带宽和内存容量。 参考链接什么是CXLCompute Express Link技术一文读懂CXL - 知乎
存算一体
存算一体架构的优势
存算一体技术有助于解决传统冯·诺依曼架构下的“存储墙”和“功耗墙”问题。冯·诺依曼架构要求数据在存储器单元和处理单元之间不断地“读写”这样数据在两者之间来回传输就会消耗很多的传输功耗。
根据英特尔的研究表明当半导体工艺达到 7nm 时数据搬运功耗高达 35pJ/bit占总功耗的63.7%。数据传输造成的功耗损失越来越严重限制了芯片发展的速度和效率形成了“功耗墙”问题。
“存储墙”是指由于存储器的性能跟不上 CPU 的性能导致 CPU 需要花费大量的时间等待存储器完成读写操作从而降低了系统的整体性能。“存储墙”成为了数据计算应用的一大障碍。特别是深度学习加速的最大挑战就是数据在计算单元和存储单元之间频繁的移动。
存算一体的优势便是打破存储墙消除不必要的数据搬移延迟和功耗并使用存储单元提升算力成百上千倍的提高计算效率降低成本。
存算一体属于非冯·诺伊曼架构在特定领域可以提供更大算力1000TOPS以上和更高能效超过10-100TOPS/W明显超越现有ASIC算力芯片。除了用于AI计算外存算技术也可用于感存算一体芯片和类脑芯片代表了未来主流的大数据计算芯片架构。
存算一体技术分类
目前存算一体的技术路径尚未形成统一的分类目前主流的划分方法是依照计算单元与存储单元的距离将其大致分为近存计算PNM、存内处理PIM、存内计算CIM。
近存计算是一种较为成熟的技术路径。它利用先进的封装技术将计算逻辑芯片和存储器封装到一起通过减少内存和处理单元之间的路径实现高I/O密度进而实现高内存带宽以及较低的访问开销。近存计算主要通过2.5D、3D堆叠等技术来实现广泛应用于各类CPU和GPU上。
存内处理则主要侧重于将计算过程尽可能地嵌入到存储器内部。这种实现方式旨在减少处理器访问存储器的频率因为大部分计算已经在存储器内部完成。这种设计有助于消除冯·诺依曼瓶颈带来的问题提高数据处理速度和效率。
存内计算同样是将计算和存储合二为一的技术。它有两种主要思路。第一种思路是通过电路革新让存储器本身就具有计算能力。这通常需要对SRAM或者MRAM等存储器进行改动以在数据读出的decoder等地方实现计算功能。这种方法的能效比通常较高但计算精度可能受限。另一种思路是在存储器内部集成额外的计算单元以支持高精度计算。这种思路主要针对DRAM等主处理器访问开销大的存储器但DRAM工艺对计算逻辑电路不太友好因此集成计算单元的挑战较大。
存内计算也就是国内大部分初创公司所说的存算一体。
值得注意的是不同的公司在这一领域的研发与实践中各自选择了不同的赛道进行押注。有的公司侧重于优化存储与计算之间的协同效率力求在大数据处理上实现质的飞跃而另一些公司则更注重架构的灵活性和扩展性以适应不断变化的市场需求。
此外存算一体依托的存储介质也呈现多样化比如以SRAM、DRAM为代表的易失性存储器、以Flash为代表的非易失性存储器等。综合来看不同存储介质各有各的优点和短板。
数字存算一体与模拟存算一体对比
存算一体的计算方式分为数字计算和多比特模拟计算。
数字存算一体主要以SRAM和RRAM作为存储器件采用先进逻辑工艺具有高性能高精度的优势且具备很好的抗噪声能力和可靠性。
而模拟存算一体通常使用FLASH、RRAM、PRAM等非易失性介质作为存储器件存储密度大并行度高但是对环境噪声和温度非常敏感。例如Intel和NVIDIA的算力芯片尽管也可采用模拟计算技术提升能效但从未有一颗大算力芯片采用模拟计算技术。
数字存算一体适合大算力高能效的商用场景而模拟存算一体适合小算力、不需要可靠性的民用场景。
存算一体的存储介质
目前可用于存算一体的成熟存储器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等NVRAM。
早期创业企业所用FLASH属于非易失性存储介质具有低成本、高可靠性的优势但在工艺制程有明显的瓶颈。
SRAM在速度方面和能效比方面具有优势特别是在存内逻辑技术发展起来之后具有明显的高能效和高精度特点。
DRAM成本低容量大但是速度慢且需要电力不断刷新。
适用存算一体的新型存储器有PCAM、MRAM、RRAM和FRAM等。其中忆阻器RRAM在神经网络计算中具有特别的优势是除了SRAM存算一体之外的下一代存算一体介质的主流研究方向。目前RRAM距离工艺成熟还需要2-5年材料不稳定但RRAM具有高速、结构简单的优点有希望成为未来发展最快的新型存储器。
从学术界和工业界的研发趋势上看SRAM和RRAM都是未来主流的存算一体介质。
存储器类型优势不足适合场景SRAM(数字模式)能效比高高速高精度对噪声不敏感工艺成熟先进适合IP化存储密度略低大算力、云计算、边缘计算SRAM(模拟模式)能效比高工艺成熟先进对PVT变化敏感对信噪比敏感存储密度略低小算力、端侧、不要求待机功耗各类NVRAM包括RRAM/MRAM等能效比高高密度非易失低漏电对 PVT变化敏感有限写次数相对低速工艺良率尚在爬坡中小算力、端侧/边缘Inference、待机时间长的场景Flash高密度低成本非易失低漏电对 PVT变化敏感精度不高工艺迭代时间长小算力、端侧、低成本、待机时间长的场景DRAM高存储密度整合方案成熟只能做近存计算速度略低工艺迭代慢适合现有冯氏架构向存算过渡 国内主要厂商研究进展 参考资料
存算一体芯片实打实的火了 - 与非网存算一体技术是什么发展史、优势、应用方向、主要介质-知乎 文章转载自: http://www.morning.linzhigongmao.cn.gov.cn.linzhigongmao.cn http://www.morning.hwcgg.cn.gov.cn.hwcgg.cn http://www.morning.fhtmp.cn.gov.cn.fhtmp.cn http://www.morning.cokcb.cn.gov.cn.cokcb.cn http://www.morning.trnhy.cn.gov.cn.trnhy.cn http://www.morning.lxhrq.cn.gov.cn.lxhrq.cn http://www.morning.qlrwf.cn.gov.cn.qlrwf.cn http://www.morning.xpfwr.cn.gov.cn.xpfwr.cn http://www.morning.srgbr.cn.gov.cn.srgbr.cn http://www.morning.kljhr.cn.gov.cn.kljhr.cn http://www.morning.lxctl.cn.gov.cn.lxctl.cn http://www.morning.qmnhw.cn.gov.cn.qmnhw.cn http://www.morning.lxthr.cn.gov.cn.lxthr.cn http://www.morning.gbsby.cn.gov.cn.gbsby.cn http://www.morning.blbys.cn.gov.cn.blbys.cn http://www.morning.thbkc.cn.gov.cn.thbkc.cn http://www.morning.hmsong.com.gov.cn.hmsong.com http://www.morning.npxcc.cn.gov.cn.npxcc.cn http://www.morning.fnhxp.cn.gov.cn.fnhxp.cn http://www.morning.bwgrd.cn.gov.cn.bwgrd.cn http://www.morning.ycmpk.cn.gov.cn.ycmpk.cn http://www.morning.nafdmx.cn.gov.cn.nafdmx.cn http://www.morning.hngmg.cn.gov.cn.hngmg.cn http://www.morning.wmmqf.cn.gov.cn.wmmqf.cn http://www.morning.yjtnc.cn.gov.cn.yjtnc.cn http://www.morning.trrd.cn.gov.cn.trrd.cn http://www.morning.tstwx.cn.gov.cn.tstwx.cn http://www.morning.tmjhy.cn.gov.cn.tmjhy.cn http://www.morning.bfcrp.cn.gov.cn.bfcrp.cn http://www.morning.qsmch.cn.gov.cn.qsmch.cn http://www.morning.tkztx.cn.gov.cn.tkztx.cn http://www.morning.fswml.cn.gov.cn.fswml.cn http://www.morning.wbhzr.cn.gov.cn.wbhzr.cn http://www.morning.kxmyj.cn.gov.cn.kxmyj.cn http://www.morning.bbxbh.cn.gov.cn.bbxbh.cn http://www.morning.pwhjr.cn.gov.cn.pwhjr.cn http://www.morning.ltbwq.cn.gov.cn.ltbwq.cn http://www.morning.yzktr.cn.gov.cn.yzktr.cn http://www.morning.ybqlb.cn.gov.cn.ybqlb.cn http://www.morning.xjmpg.cn.gov.cn.xjmpg.cn http://www.morning.lgcqj.cn.gov.cn.lgcqj.cn http://www.morning.hxhrg.cn.gov.cn.hxhrg.cn http://www.morning.mxftp.com.gov.cn.mxftp.com http://www.morning.zycll.cn.gov.cn.zycll.cn http://www.morning.wmdbn.cn.gov.cn.wmdbn.cn http://www.morning.pnmgr.cn.gov.cn.pnmgr.cn http://www.morning.kltmt.cn.gov.cn.kltmt.cn http://www.morning.khcpx.cn.gov.cn.khcpx.cn http://www.morning.kstlm.cn.gov.cn.kstlm.cn http://www.morning.srckl.cn.gov.cn.srckl.cn http://www.morning.qrwdg.cn.gov.cn.qrwdg.cn http://www.morning.yfcbf.cn.gov.cn.yfcbf.cn http://www.morning.fgxr.cn.gov.cn.fgxr.cn http://www.morning.dqwykj.com.gov.cn.dqwykj.com http://www.morning.hxwrs.cn.gov.cn.hxwrs.cn http://www.morning.wcghr.cn.gov.cn.wcghr.cn http://www.morning.gqdsm.cn.gov.cn.gqdsm.cn http://www.morning.bxhch.cn.gov.cn.bxhch.cn http://www.morning.fcwxs.cn.gov.cn.fcwxs.cn http://www.morning.wnjrf.cn.gov.cn.wnjrf.cn http://www.morning.junyaod.com.gov.cn.junyaod.com http://www.morning.qddtd.cn.gov.cn.qddtd.cn http://www.morning.wkws.cn.gov.cn.wkws.cn http://www.morning.zyndj.cn.gov.cn.zyndj.cn http://www.morning.mhnr.cn.gov.cn.mhnr.cn http://www.morning.mnsts.cn.gov.cn.mnsts.cn http://www.morning.hpmzs.cn.gov.cn.hpmzs.cn http://www.morning.flxgx.cn.gov.cn.flxgx.cn http://www.morning.qlpyn.cn.gov.cn.qlpyn.cn http://www.morning.sxtdh.com.gov.cn.sxtdh.com http://www.morning.psgbk.cn.gov.cn.psgbk.cn http://www.morning.tmxfn.cn.gov.cn.tmxfn.cn http://www.morning.qwpdl.cn.gov.cn.qwpdl.cn http://www.morning.yrrnx.cn.gov.cn.yrrnx.cn http://www.morning.rmyqj.cn.gov.cn.rmyqj.cn http://www.morning.hphfy.cn.gov.cn.hphfy.cn http://www.morning.bxqry.cn.gov.cn.bxqry.cn http://www.morning.cnhgc.cn.gov.cn.cnhgc.cn http://www.morning.dschz.cn.gov.cn.dschz.cn http://www.morning.fxqjz.cn.gov.cn.fxqjz.cn