首页 > 关于我们 > 新闻中心 > 创新服务器系统设计 浪潮信息发布融合架构3.0

创新服务器系统设计 浪潮信息发布融合架构3.0

2023-08-14

日前,在第五届OCP China Day 2023(开放计算中国技术峰会)上,浪潮信息正式推出融合架构3.0原型系统,以开创性的系统架构设计实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,支持池化资源异步升级、支持细粒度多主机共享高并发存储、亚微秒级远端内存共享访问等特性,可通过软件定义实现“一套系统,N类应用”,有效缓解当前数据中心 “内存墙”、“I/O墙”、“功耗墙”等瓶颈。

1.png

融合架构3.0原型系统的发布,将有望发展出一种全解耦、全池化、高可扩展、易部署、易管理的新型硬件基础架构,实现软硬高度协同,加速数据中心释放数字生产力,促进数字经济发展以及与实体经济的深度融合。

640.jpg

智算时代,计算体系架构亟待突破

当前,数字化、智能化转型已成为企业发展、科研创新和社会治理的刚性需求,也催生了云计算、大数据、人工智能等数字技术的蓬勃发展。然而,越来越多样化的应用对底层硬件资源的需求存在差异,导致使用传统架构的云、数、智、边、端等各类技术平台彼此独立,硬件资源难以共享复用,造成资源浪费的同时也使得运维管理难度激增。

比如,以大模型为代表的AIGC技术需要基于海量数据集,在拥有成百上千AI加速卡的集群上对千亿级参数的AI大模型进行分布式训练,对异构算力的需求更高;科学计算要求更高的计算精度,对通用算力的需求更高;内存计算则希望让更多应用程序的数据驻留在内存之中,使得数据和算力更接近,以提高处理速率,对内存容量要求更高。但传统架构下,IT资源的扩展是以整机形态来完成的,即便用户亟需的是某种特定资源,但仍然需要为整机附带的额外资源付费,这势必增加了IT支出并造成资源闲置浪费。

2.jpg

与此同时,在算力供给侧摩尔定律逐渐放缓和登纳德缩放定律走向终结,现有的计算体系架构先天性不足被成倍放大,数据中心计算体系架构的创新已迫在眉睫。

“当前数据中心遇到的 “内存墙”、“I/O墙”、“功耗墙”等现象,并不是孤立存在,它们是现有计算体系架构不足放大后的体现。只有通过计算体系架构的整体创新,才能彻底解决各种瓶颈带来的挑战。”

—— 浪潮信息服务器产品线总经理赵帅

融合架构3.0:以数据为中心的新架构

浪潮信息提出并一直在践行的融合架构是最优的技术路线。在此背景下,浪潮信息推出融合架构3.0原型系统,打破了以往“以CPU为中心”的设计理念,而是从整体出发,“以系统为中心”,通过系统架构创新解耦重构服务器系统,突破性实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,可支持多种通用处理器平台与GPU、FPGA、DPU等多种异构加速单元的协同计算,并可通过软件定义实现资源协同动态调度。这种基于硬件重构技术而开发的新一代基础架构,将实现更加自由的资源随需定义,为上层软件定义系统提供更出色的灵活性,使其能够根据应用特点,以高度自动化的方式分配与重新配置硬件资源,不再受到非动态设置的硬件基础设施的限制,让数据中心内部的人工智能、科学计算、云计算、大数据等各类应用统一运行于同一架构之上,实现多技术平台融合,加速业务创新及数字化转型。

3.jpg

与传统的CPU为中心的计算架构不同,融合架构3.0原型系统以数据为中心,实现计算节点内部各种算力芯片共享内存数据、统一编址和协同工作;在跨节点之间则通过智能数据处理单元和高速网络形成分布式互连交换,实现CPU、GPU、FPGA等各种加速芯片的算力协同以及内存池化、新型存储资源池化,具有节点间的数据访问延迟极低,支持高效弹性扩展等优势。此外,融合架构系统可以实现更为灵活的资源重构,为人工智能、大数据等多种应用场景提供强大的算力支撑。

内存解耦与池化一直是业界的热点与难点,随着以CXL为代表的串行缓存一致性总线的出现,给主机和远端共享内存之间提供了低延时的访问路径以及缓存一致性保证,为大规模内存扩展与内存资源池化提供了可能。融合架构3.0原型系统突破内存解耦池化关键技术,研制新型应用串行缓存一致性总线及其交换技术的内存模组和内存池化系统,保障主机系统对大容量、高带宽内存的应用需求。

赵帅介绍,融合架构3.0原型系统首创JBOM独立内存资源池设计,创新实现高密度内存扩展方案,主机系统远端内存扩展技术领先业界。通过软件定义系统设计及CXL高性能交换技术,率先实现内存资源池化与细粒度多主机共享。

系统互连设计方面,解耦与池化带来了新的互连挑战,整系统通过设计供电控制、复位、时钟锁定等协同工作方式实现解耦单元整体运行。此外,随着数据速率的不断攀升和系统链路变得更加复杂,解耦池化系统互连链路互连延展已经接近极限,系统针对复杂链路高速互连进行高精度的拟合仿真研究,准确分析系统互连链路多样化拓扑和传输速率的极限。

此外,融合架构3.0原型系统开发软件定义管理系统,实现拓扑切换、端口动态管理、多主机资源共享与资源动态分区等高级功能;开发资源管理软件,实现设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控和链路健康诊断,保障主机系统硬件资源的动态部署与高效管理。

赵帅表示:“融合架构3.0原型系统效率可比上一代软件虚拟化系统提升一到两个数量级,可扩展性提高2~4倍,系统延时降低90%,PUE低于1.1。随着数字经济、人工智能持续发展,企业的各项业务越来越依赖数据及其价值,算力技术也需要不断演进,融合架构3.0原型系统的发布,有助于企业提升数据管理效率,最大化释放数据价值。”

4.jpg