近日,在IPF2024上,浪潮信息正式发布了专门面向生成式AI的超级AI以太网交换机——X400,这是国内首款基于NVIDIA Spectrum-X平台打造的以太网交换机,吞吐量达业界最高的51.2T,较上一代产品提升了4倍,在4U空间可提供128个400Gb/s 的高速网络端口,在其高吞吐量、低延迟、高可靠性等优势的加持下,比传统的RoCE网络性能提升了1.6倍,为大规模算力提供领先的AI网络性能。
超级AI以太网交换机X400是双方联合创新的结晶,专门面向生成式AI打造,X400在标准以太网络上实现了与专用网络架构相当的网络性能,确保客户以更理想的方式建设网络基础设施,这将极大提升AI模型迭代与业务创新的速度。
目前,我们面临的用于人工智能基础模型的计算能力不足、训练成本高等问题,原因之一就是传统网络的效率低下,导致GPU集群中多节点间通信时的效率偏低。在训练基础模型中,网络通信往往占到20%到40%的时间,在进行梯度和参数同步时,浪费了宝贵的GPU资源。
面向这种生成式AI场景的网络互连瓶颈,会上发布首款专门面向AI的以太网交换机X400,采用了NVIDIA的Spectrum-4 交换芯片,这是NVIDIA的第五代以太网交换芯片,助力X400达到了业界领先的数据包处理速率、全线速性能和超低直通(pass-through)延迟,通过动态路由(Adaptive Routing)和增强拥塞控制技术,实现了95%以上的以太网网络利用率,处于业界领先,依托完全共享的数据包缓冲区架构,动态地为所有端口提供公平且无瓶颈的数据路径,成为构建面向AI场景的高性能RoCE网络的理想产品,满足生成式AI、大型语言模型、推荐系统、视频分析等带宽密集型应用的超高网络性能需求。
超级AI以太网交换机X400是一款采用开放架构设计的高性能AI交换机,实现了软硬件的分层解耦,基于百度、阿里、腾讯等云计算厂商联合制定的S3IP开放标准,支持开源SONiC及第三方网络OS,实现了业务应用和网络协议的灵活拓展,满足了不同客户对交换机的定制化需求。同时,为保证用户AIGC网络的稳定性,X400搭载了独创的IGE智能防护引擎,提供关键部件侦测、软件关键进程监控、内存纠错、双Flash冗余切换等多种故障预防机制,实现了对设备的全面可靠性保护。此外,X400还搭载集监控和配置于一体的O&M智能运维平台,支持Spectrum-4 的WJH(what just happened)功能,通过底层芯片和软件工具收集数据包粒度的可见性数据和事件触发信息,实时掌握网络与设备的健康状况,结合创新的故障自愈技术,极大地提升了网络设备的高可用性,助力客户构建可视、可控、可靠的AI大模型训练网络。
方案层面,超级AI以太网交换机 X400基于开源SONiC研发的UXOS网络操作系统、NVIDIA BlueField-3 SuperNICs等,为用户构建面向生成式AI场景的端到端高性能网络解决方案 AI Fabric,组网规模可弹性扩展至51.2万个GPU的超大规模AI系统,凭借AR动态路由、端到端拥塞控制、亚毫秒级故障自愈等技术,性能提升至传统RoCE网络性能1.6倍,达到以太网RoCE的性能极限,实现了AI网络的超高吞吐量、高可扩展性和超高可靠性。测试数据表明,该方案能显著提升大模型训练性能,相比传统RoCE网络方案,这种AI网络的带宽利用率超过95%,通信时延降低30%,NVIDIA Megatron-LM大模型训练速度最高可以提升70%,大幅缩短训练时长并降低训练成本。