好公司网站建设价格,保定网站推广费用,网站建设及维护干什么的,江苏建设集团有限公司各位小伙伴们大家好哈#xff0c;我是老猫。
今天跟大家来聊聊数据中心网络。
提到网络#xff0c;通常把网络比作高速公路#xff0c;网卡相当于上下高速公路的闸口#xff0c;数据包就相当于运送数据的汽车#xff0c;交通法规就是“传输协议”。 如高速公路也会堵车一…各位小伙伴们大家好哈我是老猫。
今天跟大家来聊聊数据中心网络。
提到网络通常把网络比作高速公路网卡相当于上下高速公路的闸口数据包就相当于运送数据的汽车交通法规就是“传输协议”。 如高速公路也会堵车一样网络这条数据的高速公路也会遇到拥堵问题尤其是在人工智能快速发展的今天这对数据中心网络提出了更高的要求。
今天我们就来聊聊到底什么样的网络才能满足AI时代的需求
▉ 为什么现在的网络不行了
网络发展了这么多年为什么最近频频被拿出来说为什么传统的网络成为了现代数据中心的瓶颈
毫无疑问这与AI、机器学习等密集型计算场景脱不了关系。这些场景对算力需求越来越大据IDC统计全球算力的需求每3.5个月就会翻一倍远远超过了当前算力的增长速度。要满足越来越高的算力需求在算力增加的同时也需要充分提高算力的利用效率和通信性能那么作为数据中心三大核心组件之一的数据中心网络就将面临挑战。 这是因为在传统的在冯·诺依曼架构体系中网络一般只是起到数据传输的作用计算都是以CPU或GPU为中心而当ChatGPT和BERT等大型复杂模型将其工作负载分配到数量众多的GPU进行并行计算时将产生大量的突发梯度数据传输从而容易导致网络拥塞。
这是传统冯·诺依曼架构的一个天然弊端在算力提升的AI时代无论是提升带宽还是降低延迟都无法解决网络这一问题。
那么如何继续提升数据中心网络的性能呢
▉ 有没有提升网络性能的新方式
要想提升网络性能传统的方式一般有两种提升带宽和降低延迟。这两种方式很好理解就像在高速路上运送货物一样要么提升道路的宽度要么提升道路的限速从而解决网络拥堵的问题。
我们日常生活中遇到网络过慢也会采用这两种方式要么加钱升级更高的宽带要么购买性能更好的网络设备。
但这两种方式对网络的提升是有限度的当带宽升级到一定宽度当设备达到一定的级别网络实际性能就很难再往上提升了这也是当前AI时代网络出现瓶颈的主要原因。 那目前有没有提升网络更好的解决方案呢
答案当然是肯定的。为了加速模型训练和处理大量数据集作为全球AI算力霸主英伟达也早就发现了传统网络的瓶颈。为此英伟达选择了新的道路让计算围绕数据来部署。简单来说就是数据在哪儿计算就在哪儿当数据在GPU上计算就在GPU上当数据在网络中传输时计算就在网络中。
简而言之就是让网络不仅保障数据传输的性能还要承担一些数据处理的计算。
通过这种新的架构方式可以让CPU或GPU专心做自己擅长的计算任务将一些基础设施操作工作负载分配到网络连接的节点上从而解决网络传输中多打一的瓶颈问题或丢包问题。据了解通过这种方式可以使网络延时降低10倍以上。
所以也让基础设施计算成为我们现在以数据为中心这种核心计算架构的关键技术之一。
▉ 为什么DPU能带来网络的提升
提到基础设施计算就不得不提DPU这个概念DPU的全称为Data Processing Unit是数据中心第三颗主力芯片它的出现主要是为了分担CPU在数据中心中除了通用计算以外的基础设施工作负载的。
NVIDIA是DPU领域的全球先行者。2020 年上半年NVIDIA以69 亿美元的对价收购以色列网络芯片公司Mellanox Technologies并于同年推出BlueField-2 DPU将其定义为继CPU和GPU之后“第三颗主力芯片”正式拉开DPU大发展的序幕。
那么有人就要问了这个DPU到底在网络中能起到什么作用呢
我举个例子来说明一下。
就像经营餐馆一样以前人手比较少老板一个人承担采买、洗切、配菜、烹调、传菜和收银等全部工作就像CPU一样不仅要进行数学和逻辑运算还要管理外部设备在不同的时间执行不同的任务并进行任务的切换从而满足业务应用程序执行的需要。 但是随着要服务的就餐客户数量的增多就需要将不同的任务由不同的人员分担有多个店员负责采买、洗切、配菜保障厨师的烹调备料有多位厨师并行进行烹调提升菜品制作效率有多位服务员提供服务和传菜保证多桌客户的服务质量而老板就只负责收银和管理。
如此一来店员和服务员团队像是DPU对数据进行处理和移动厨师团队像是GPU对数据进行并行计算而老板像是CPU获取业务应用需求并交付结果。 CPU、GPU和DPU各司其职通力配合将擅长处理的工作负载发挥到极致大幅提升数据中心性能和能效并获得更好的投资回报。
▉ NVIDIA推出了哪些DPU产品
在2020年推出BlueField-2 DPU后。为了解决AI工作负载的独特需求NVIDIA马不停蹄在2021年4月份对外发布了新一代数据处理器-NVIDIA BlueField-3 DPU。
BlueField-3是首款为AI和加速计算而设计的DPU。据了解BlueField-3 DPU可以很好的实现数据中心基础设施工作负载的卸载、加速和隔离从而释放宝贵的CPU资源来运行关键业务应用。 现代超大规模云技术推动数据中心从基础上走向了新的架构 利用一种专门针对数据中心基础架构软件而设计的新型处理器 来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。
作为业内首款400G以太网和NDR InfiniBand DPUBlueField-3具有出色的网络性能。可为要求苛刻的工作负载提供软件定义、硬件加速的数据中心基础设施解决方案加速AI到混合云和高性能计算再到5G无线网络BlueField-3 DPU重新定义了各种可能性。
发布了BlueField-3 DPU后NVIDIA仍然没有停下探索的脚步。NVIDIA发现随着大模型的出现和流行如何提升GPU集群的分布式计算性能和效率、提高GPU集群的横向扩展能力、实现在生成式AI云上的业务性能隔离成为了所有大模型厂商和AI服务供应商共同关注的问题。 为此在2023年底NVIDIA推出BlueField-3 SuperNIC从而面向东西向流量进行性能优化它源于BlueField DPU用了DPU相同的架构但是有别于DPU。DPU专注于对于基础设施操作的卸载是对南北向流量进行加速和优化。BlueField SuperNIC则借鉴了InfiniBand网络上的动态路由、拥塞控制和性能隔离等技术又兼容了以太网标准在云上的便利性从而满足了生成式AI云对于性能、扩展性和多租户的需求。 总结来说目前NVIDIA BlueField-3网络平台包含两款产品分别为实现限速处理软件定义、网络、存储和网络安全任务的BlueField-3 DPU和专为强力支持超大规模AI云而设计的BlueField SuperNIC。
▉ DOCA对DPU有啥用
聊到DPU的时候往往就会聊到DOCA。那么DOCA是什么它对DPU有啥价值
通过上文我们了解到NVIDIA有了BlueField-3 DPU和BlueField-3 SuperNIC两款产品能够对当前AI算力激增起到很好的加速作用。
但目前单纯的靠硬件产品很难满足当前不同的应用场景那就需要借助软件的力量。
CUDA是GPU在算力市场上无人不知的软件平台而针对网络平台的需求英伟达采用了同样的软硬件一体化的加速方式在3年前也推出了专为DPU量身定制的软件开发平台DOCA如今也适用于BlueField -3 SuperNIC。
NVIDIA DOCA拥有丰富的库、驱动程序和API可为DOCA开发者提供 “一站式服务”同时也是加速云基础设施服务的关键。 而且作为全栈的组成部分DOCA是解开AI谜题的关键部分可将计算、网络、存储和安全联系在一起。借助DOCA 开发者可以通过创建软件定义、云原生、DPU和SuperNIC 加速的服务并支持零信任保护从而满足现代数据中心的性能和安全需求。
目前经过三年的迭代升级DOCA 2.7不仅扩展了BlueField DPU在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心并加速了NVIDIA Spectrum-X网络平台为 AI 工作负载提供了卓越的性能。
下面我们来看下DOCA对于包含GPU和NVIDIA BlueField-3DPU或 BlueField–3 SuperNIC的关键作用 总结来说适用于DPU和SuperNIC的NVIDIA DOCA就像适用于GPU的CUDA一样。DOCA汇集了各种强大的 API、库和驱动可用于编程和加速现代数据中心基础设施。
▉ DOCA开发将成为下一个蓝海赛道
毫无疑问随着AI、深度学习、元宇宙等技术场景的出现越来越多的企业需要有更多的DOCA开发者加入进来让更多的创新和想法落地。大家耳熟能详的云服务提供商对DPU的需求越来越多需要借助DOCA硬件加速技术来优化数据中心的性能。 而且随着企业对高效、安全的数据处理需求的增加DOCA开发也成为云基础设施工程师、云架构师、网络工程师等岗位获得竞争优势的一项技能。另外DOCA开发者还能够创建软件定义、云原生和DPU加速的服务参与DOCA开发不仅可以提升个人技能还能增强在技术社区中的影响力。
目前来看DOCA的开发者数量还远远不能够满足市场需求。据官方资料显示全球共有14000多名DOCA开发者其中近一半来自中国。虽然看起来人不少但是相比CUDA在全球有500万开发者来看DOCA开发者还有很大的增长空间。
但毕竟DOCA才发布仅仅三年多的时间CUDA已经有将近30年的历史。当然这也从侧面说明了DOCA还处在发展的初期潜力还很大。
为了吸引更多的开发者加入到DOCA开发中NVIDIA这几年也一直积极通过各种活动为开发者提供更多帮助包括筹备并落地DOCA中国开发者社区举办DOCA开发者线上线下训练营举办了DOCA开发者黑客松比赛等等。
不仅如此在2024年6月份NVIDIA DPU编程入门课程在澳门科技大学正式开课公开的课程大纲显示内容包含了NVIDIA BlueField网络平台和NVIDIA DOCA件框架如何加速AI计算的全面介绍助力高校学生在AI时代获得竞争优势。
对于想转型的开发者和即将毕业的大学生来说DOCA开发是一个被很多人看好的方向。 在年初结束的NVIDIA DOCA应用代码分享活动中就有众多开发者脱颖而出获得奖项这其中就包括不少在校大学生。在本次活动中获得一等奖的陈勤是一名计算机科学与技术专业在读硕士研究生他表示“通过DOCA的开发不仅提升了我的能力还为我带来了潜在的工作机会。我在社区也获得了很多前辈的肯定让我对自己更有信心。”
如今NVIDIA DOCA中国开发者社区还在不断壮大各种丰富的活动与内容也将持续呈现对于想进入DOCA开发的小伙伴无疑是一个好时机。最近我也在试用DOCA软件开发套件如果有感兴趣的小伙伴儿可以一起研究下通过这个链接通过这个链接 https://developer.nvidia.cn/doca-downloads就可以免费下载DOCA有问题可以留言一起讨论。