本站点使用Cookies，继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

产品
解决方案
服务支持
如何购买
合作伙伴
关于我们

搜索

简体中文

产品
解决方案
服务支持
如何购买
合作伙伴
联合创新平台
关于我们

计算产业洞察

元脑品牌升级公告

title

产品中心 >>

元脑®通用服务器
元脑®人工智能服务器
元脑®边缘服务器
元脑®关键计算服务器
存储
开放网络
方案产品
数据中心基础设施
服务器管理平台
服务器操作系统

人工智能与高性能计算
边缘计算和物联网
智慧网络
数据存储与管理
伙伴联合方案

title

元脑®通用服务器>>

机架&塔式服务器

第八代服务器

· NF5466G8

· NF3290G8

· NF3180G8

· NF3280G8

· NF5180G8

· NF5280G8

第七代服务器

· NF5270G7

· SC5212G7

· NF5476G7

· NF5170G7

· NF8260G7

· NF3280G7

· NF3180G7

· NF5466G7

· NF5266G7

· NF8480G7

· TS860G7

· NP3020G7

· NF5280G7

· NF5180G7

查看全部产品

整机柜服务器

· ORS6000G8

· ORS3000S

· ORS6000S

高密度服务器

· i24G8

· i22G8

· i24G7

· i22G7

· i48M6

· i24M6

元脑®人工智能服务器>>

GPU服务器

· NF5688G8

· NF5698G7

· NF5468G7

· NF5468A5

· NF5688G7

· NF5468M6

管理平台

· 元脑企智EPAI

· AIStation

· ClusterEngine

元脑®边缘服务器>>

边缘服务器

· NE3160G7

· NE5260G7

· NE5260M5

· NE3160M5

· NE3120M5

边缘微服务器

· EIS800

· EIS200

便携AI服务器

· NE3412M5

边缘微中心

· SRDC600

边缘计算管理平台>>

· 缘智

· 缘脑

· 缘视

元脑®关键计算服务器>>

K1 Power K系列

· K1 Power K8880G3

· K1 Power K8870G3

· K1 Power K8860G3

· K1 Power K8850G3

存储>>|G7系列存储平台>>

全闪存存储

· HF6000G6-CG

· HF18000G6-CG

· HF18000G6-CGF

· HF8000G6-CGF

· HF6000G6-CGF

· HF18000G5-I

· HF6000G5

· HF8000G5

· HF5000G5

混闪存储

· AS5600G6-CG

· AS5500G5-C

· AS5500G5

· AS2150G2

· AS5800G5

· AS5600G5

· AS6800G5

· AS18000G5-I

· AS5300G5

· AS2600G2

· AS2200G2

分布式存储

· AS13000G7（M系列）

· AS13000G6-CG

· AS13000G6-M

· AS13000G7（H系列）

· AS13000G6-H

· AS13000G5-CG

· AS13000G5-P

光纤交换机

· FS8730

· FS8900-I

· FS8600

· FS9610/FS9620

· FS9710

· FS9720

· FS8900

· FS8720

· FS8500

数据管理与保护

· DP2000G7

· 业务连续保护软件BCP

· infinistor

· DP2000G6

SSD硬盘

· NS8500G2双端口

· NS8500G2 & NS8600G2

· NS8510G1 & NS8610G1

· NS6510G1 & NS6610G1

扩展柜

· JD348

开放网络>>

交换机

· X400（SC8670EL-128QH）

· CN5610EL-48Y8C

· SC8661SL

· SC7650EL-32D

· SC6650EL-48L8D

· SC6630EL-32C

· SC5631EL-48Y8C

· SC5630EL

· CN2610EL-48T4X2Q

· CN2610EA-48T4X

· CN2610EA-48S4X

网络操作系统

· UXOS网络操作系统

方案产品>>

SAP HANA 认证产品

· TS860G7 for SAP HANA

· NF8480G7 for SAP HANA

· NF8260G7 for SAP HANA

· NF5280G7 for SAP HANA

· TS860M5 for SAP HANA

· NF8480M6 for SAP HANA

· NF8260M6 for SAP HANA

· NF5280M6 for SAP HANA

VMware vSAN超融合认证产品

· inMerge G7系列超融合系统

· inMerge1100M6系列超融合系统

SRDC一体机

· SRDC一体机

数据中心解决方案

· MDC-S紧凑型数据中心

· MDC-S 08A单机柜数据中心

· ISC-CDC预制化数据中心

· ISC-MDC模块化数据中心

数据中心产品系列

制冷产品系列

· ISC-COOLING-W60冷冻水行级机房专用空调

· ISC-COOLING-F06/F12-RM机架式空调

配电产品系列

· ISC-UPS25-RM机架式UPS

· ISC系列一体化电源柜

· ISC系列配电柜

机柜及通道产品系列

· ISC-MDC-S 2506通道

· ISC-MDC通道

· ISC-NR42机柜

动环监控产品系列

· ISC-MCU7000 1U监控主机

· ISC-MCU5000触控一体式动环主机

· ISC-AI HMI10000 32寸触控大屏

· ISC-AI Manager20000 3D可视化展示系统

液冷产品系列

· ISC-LCooling-Y400冷量分配单元

· ISC-LCooling-F008冷量分配单元

· ISC-LCooling-Y060冷量分配单元

服务器管理平台>>

服务器管理套件

· InManage Kits

· InManage Server CLI

· InManage Boot

基础设施管理平台

· InManage

服务器固件在线仓库

· InManage Repo

服务器操作系统

· 云峦服务器操作系统KeyarchOS

· 云峦操作系统安全防御软件KSecure

· 云峦服务器操作系统运维平台KSysOM

· 自动驾驶解决方案

· CAE(Computer Aided Engineering)解决方案

· 气象预报解决方案

· 医疗卫生人工智能解决方案

· 工业互联网解决方案

· 智慧零售解决方案

· 数字道路解决方案

· 智慧化工园区解决方案

· 能源场站安全生产智能巡视解决方案

· 矿山智能一体机解决方案

· 车路协同解决方案

· 智慧园区解决方案

· 基于边缘计算的5G BBU解决方案

· AI与5G相融合构建数智化社会通信网络基础

· 开放网络解决方案

· 智慧校园存储解决方案

· 医疗核心业务存储容灾解决方案

· 基于Flex 140的视频编解码解决方案

· 基于Flex 170V的虚拟桌面解决方案

产品支持

· 驱动下载>>

· 固件下载>>

· 客户产品资料下载>>

· 视频教程>>

· 功耗计算器>>

· OS兼容性查询工具>>

· 产品认证查询>>

· AIStation激活码申请>>

· ClusterEngine激活码申请>>

· KeyarchOS激活码申请>>

· 产品安全通告>>

· 产品生命周期>>

· 技术白皮书下载>>

自助服务

· 售后在线服务>>

· 保修配置查询>>

· 服务进度查询>>

· 服务政策>>

· 常见问题>>

· 全国办事处>>

服务产品

· 焕新服务>>

如何购买 >>

联系浪潮信息

· 售前在线客服>>

· 热线电话: 400-860-6708 800-860-6708（固话拨打）

· 提交项目需求>>

联系经销商

· 查找经销商>>

· 需要经销商回电>>

查看更多购买信息>>

成为合作伙伴>>

浪潮信息致力于构建全球化的智慧计算生态，愿与合作伙伴从业务、资源、战略上全面聚合，共同推动客户数字化转型。

查找合作伙伴>>

查找当地经销商联系方式或者提交需求表单与经销商联系沟通。

合作伙伴认证查询>>

即时进行合作伙伴公司认证查询、学员认证证书查询，了解培训考试达标进展。

联合创新平台>>

融汇认证与体验，激发创新力量，助力合作伙伴成长，为客户提供卓越体验和服务，共创业务增长!

客户测试中心>>

· 产品远程测试>>

AI创新中心>>

为全球客户提供先进AI算力、完整软件框架和成熟Demo演示。

边缘计算融携实验室>>

联合伙伴开展技术和产品验证，推动边缘计算技术创新和应用。

关于我们

· 公司简介>>

· 投资者关系>>

最新动态

· 新闻中心>>

· 市场活动>>

· 成功案例>>

品牌专题

· 计算之美>>

· 千锤百炼>>

· 数智化转型实践>>

可持续发展

· 环境、社会和公司治理>>

· 政策和声明>>

技术博客

· 元脑博客>>

联系我们

· 联系信息>>

首页 > 关于我们 > 新闻中心 > 性能拉满！“大模型专用”超级AI以太网交换机X400的杀手锏技术

性能拉满！“大模型专用”超级AI以太网交换机X400的杀手锏技术

2024-07-31

大模型火了，参数规模一路狂飙，在新的超级AI算力系统背后，多层次的交换机网络也让网工朋友很是头疼。

网工朋友可能还没注意到，最近市面上有一款吊炸天的“大模型专用交换机”来了。

毕竟，交换机这种通用网络产品发展了几十年，时至今日，任何网络技术，很难撩起人们的兴奋点。

但，仔细了解一下，这款交换机，着实让人兴奋。

甚至可以说，这是国内目前AIGC领域最牛交换机。

为什么这么高评价？我们看看实测吧

这款叫做X400的交换机，端口规格是128×400G，看起来似乎“平平无奇”。

因为业内同行们，也差不多是这个规格（单芯片51.2T方案，64×800G或128×400G）。

可是，类似的规格，这款交换机却表现出“吊打”同行的能力。

跟同行们的51.2T方案相比，用这款交换机组网训练大模型，训练性能可以提升至1.6倍。

下面这个实测就很能说明问题：

16000张GPU卡环境，训练1750亿参数的GPT3，X400交换机吊打传统RoCE网络。

这是什么概念呢？

这意味着，基于X400交换机构建的以太网，大模型训练性能可以完全对标同速率的IB网络。

你花着以太网RoCE的钱，买到的却是与IB网络相当的性能！

接下来，我们就讲讲，这个看似平平无奇的X400，凭啥这么猛？

首先，这是国内目前唯一量产的基于Spectrum-4交换芯片的交换机。接

当前市面上51.2T交换芯片方案四分天下：Spectrum-4、Tomahawk 5、Silicon One G200以及Teralynx 10，每一家都各有特色。

国内数通大厂和互联网巨头们，纷纷发布了51.2T交换机，大多搭载的是Tomahawk5方案，而这款X400交换机，是首款采用Spectrum-4的。

懂的都懂，Spectrum-4在AI场景能力超强。

相比其他方案，Spectrum-4具备一些独特的优势，专门应对AI业务场景：

❶自适应路由实现完美负载均衡 ❷多租户流量隔离，互不打扰 ❸交换链路带宽利用率高 ❹训推任务实现低延时，低抖动和低尾延时。

更为重要的是，AI大模型大多基于GPU构建，训练的网络优化离不开NCCL集合通信库支持。

X400和IB一样，与NCCL天然无缝衔接，而其他交换方案需要对NCCL进行额外修改和优化。

所以，在硬件底子上，X400交换机天生就「骨骼精奇」，赢在了起跑线上。

不过，硬件能力只决定了交换机的下限，软件能力才能拉高交换机的上限。

X400在软件上，针对AIGC场景进行了特别优化。

这么说吧，同样是RoCE，X400能吊打传统RoCE交换机，软件层的优化，功不可没。

AUTO ECN技术

搞过数据中心网络的都知道，在对网络延迟和丢包比较敏感的场景，通常都会启用ECN技术，现在市面上用的比较多的叫做“DCQCN”。

ECN是一种网络拥塞通知和管理机制，它在监测到网络中即将发生拥塞的时候，不会将报文丢弃，而是添加拥塞标记，让发送方动态调整拥塞控制窗口（CWND），从而避免拥塞。

说白了，快要拥塞的时候，就通知发送方步子迈小点儿，没有拥塞的时候，步子就迈大点儿。

但是呢，这个“步子”的大小（拥塞窗口大小）是非常有学问的，步子太大容易扯着蛋，步子太小就会影响吞吐量。

能够动态地找出那个最优的“窗口”，既保证不拥塞，又有最高的吞吐量，深深困扰了广大数据中心网工们。

手动ECN调优太麻烦了，X400交换机是怎么干的呢？

这家伙鬼的很，它要用AI的办法来解决AI问题，搞出了一个AutoECN的算法，相当于每台交换机都内置了一个流量调参大模型。

在实际流量环境中，X400交换机会实时采集流量特征，并通过带外管理口进行上下游流量特征同步（这种同步不会占用带内带宽资源）。

被采集到的流量状态会作为输入，给到交换机内置的AutoECN模型，然后模型会根据输入，完成实时推理，得到此时最优的ECN参数，实时设置。

跟传统的ECN/DCQCN相比，AutoECN的拥塞控制阈值是一个完全动态调整的最优值，也不怕由于CNP报文发送不及时导致的控速失效。

来看一下实战效果

同样一组流量，在启用了DCQCN和AutoECN的交换机上传输，后者对传输效率的改进非常明显。

如上图，AutoECN提供了三种模型：时延优先、吞吐优先、均衡模型。然后分别用两种特征的流量来打，每种模型的表现，都大幅超过传统ECN（传输每一组流量时，所用时间越短越好）。

当你的业务更挑时延，就用时延优先模型，如果更偏向吞吐，就用吞吐优先模型，如果两种都想兼顾，那就用均衡模型。

总之不管流量多变态，AutoECN总能基于AI技术，动态调参，给出一个最优方案。

RTT-CC拥塞控制

如果你的业务对网络延迟格外敏感，希望更低的延迟和抖动，基于X400交换机构建的AI Fabirc方案还额外准备了一项秘技：RTT-CC。

RTT-CC不需要像ECN那样对拥塞数据包进行显式标记，而是通过持续监控和评估数据包的往返时间，预测网络拥塞。

X400 AI Fabirc方案的RTT-CC功能，采用了基于硬件的反馈环路，动态监测拥塞并实时调整发送窗口大小和速率，性能更好，时延表现更优。

如此，同时具备RTT-CC和AutoECN的拥塞控制技术，可以更好地满足低延迟、高吞吐、零丢包的严苛场景需求。

逐包负载均衡

在数据中心网络中，涉及到多路径传输的时候，传统RoCE方案通常会用ECMP等技术，来实现多链路负载分担。

但是吧，ECMP的负载分担，是基于流的(Flow Based，根据每条流哈希值的不同，调度到不同的链路上)，粒度太粗犷。

极端的情况，会因为哈希不均匀或者流的大小悬殊，导致流量都被调度到一条链路上，而其他链路没活可干，整网传输效率打折。

怎么破？

X400交换机支持自适应路由（AR）和包喷洒（Packet spraying）技术。

简单讲就是逐包负载均衡：基于每个数据包来调度，粒度更细，算法更优。

这样，让每条路都均匀负载分担，提升整网吞吐量，打满每条链路，喂饱每块GPU。

当然，这种逐包负载均衡，因为每个包走的路况不一样，到达服务器端的时候，数据包先后顺序可能会错乱，如果服务器没点特殊本事，就会吃不消。

于是，跟X400交换机配套的服务器，也配备了支持保序功能的智能网卡，可以对乱序的数据包，进行重组。

这样就完美了，既不担心乱序，又保证了链路的高效利用。

凭借这三项超能力（AutoECN、RTT-CC、自适应路由），X400交换机成功扛下了智算中心AI算力系统高效互联的严苛诉求。

不止如此，X400交换机在软件层面，还采用了大量技术来提升可靠性和可维护性。

比如故障自愈能力，IGE智能防护技术、可视化监控、ZTP部署…

同时，X400交换机遵循S3IP-UNP规范设计，支持开源SONiC和第三方网络OS，对希望构建超级AI算力系统的客户，都具备极大的灵活性。

说了这么多，这个X400交换机到底谁家的产品呢？

嘿嘿，浪潮信息。

浪潮信息X400超级AI以太网交换机，专门面向生成式AI场景打造，国内首款支持NVIDIA Spectrum-X平台技术，并基于X400和BlueField-3 SuperNICs打造端网协同的X400超级AI以太网(X400 AI Fabric)方案。

浪潮信息提供了端网协同的X400 AI Fabric方案，即插即用，最大支持512K张GPU的AI算力系统。

与业内传统RoCE组网方案相比，带宽利用率超过95%，时延降低30%，大幅提升大模型训练速度。

浪潮信息凭什么能造出性能如此拉满的AI交换机？实战效果甚至还超越了一众数通大厂的RoCE产品？

浪潮信息是国内最大的AI服务器提供商，连续7年位居第一。

同时，浪潮信息作为头部互联网客户的核心网络供应商，具备丰富的数据中心与智算中心的组网经验。

基于对AI基础设施和应用的理解以及持续深入的网络研发实践，浪潮信息发布了这款全新的超级AI以太网交换机X400，成为业界瞩目的顶流产品。

大模型时代，一切都在重塑，浪潮信息X400，筑起通往大模型的超级高速路！

(注：本文转载自科技自媒体“特大号”官微)

上一篇：主论坛嘉宾阵容亮相！2024开放计算中国峰会将于8月8日举办

下一篇：面向客户，量身定“智”——浪潮信息的智能化转型之旅！

返回列表

相关信息

了解更多 

售前咨询

售后服务

反馈意见

AIStore

回到顶部

收起

咨询

请选择服务项目

售前咨询
售后服务
反馈意见
AIStore

售前咨询

售前在线客服

需求快速响应
立即沟通
购买咨询

服务时间：全天候7*24小时

400-860-6708
提交项目需求

提供最佳方案选择
立即提交

更多联系方式>>

售后服务

售后在线服务

自助服务，快速解答
立即咨询
售后服务

服务时间：全天候 7*24小时

400-860-0011

更多联系方式>>

访问 AIStore

AIStore是基于元脑生态打造的商业协作线上平台，作为知识资源平台、交流服务平台和商机孵化平台，赋能“百模”与“千行”的对接，目前已上架200+产品和方案，在智能票据识别、AI工业质检、代码生成、视觉智能标注、AI健康助手等领域实现成功牵手和落地应用，助力千行百业加速AI产业创新，高效释放生产力。

扫码访问AIStore