首页 > 关于我们 > 成功案例 > 从东到西,把一座智算中心搬到内蒙?They made it!

从东到西,把一座智算中心搬到内蒙?They made it!

发布时间:2024-12-23

在一座智算中心的全生命周期中,没有任何一项任务的困难程度,能比得上“搬迁”任务。搬迁不是单纯IT系统或设备的搬运,而是在保证业务连续性前提下,充分保障数据和硬件资产安全,极致化搬迁效率,实现业务的平滑迁移。设备如金,数据无价,搬迁是项复杂的运筹和调度工程,任何疏忽都会造成资产“倾覆”的风险。

智算中心搬迁,不止于搬迁

24年初,浪潮信息服务部门承接了一项智算中心搬迁服务需求:客户希望在8天内,将位于长三角区域某城市的智算中心,搬迁至乌兰察布的新机房。

随着AI训练业务迅速发展,客户早期智算中心中机柜已趋于饱和,扩大规模需求强烈。在综合衡量机房扩展成本和功耗成本,及业务未来可持续发展后,客户决定将新机房部署在政策更优、气候条件更利于节能降耗的乌兰察布。然而搬迁工作面临重重困难:

设备规模多、杂:该智算中心内安置有近千台形态各异服务器设备,和一万多件备品备件。由于“历史债务”问题,服务器品牌众多,共有19种不同品牌机型,代际各不相同,配件规格也不尽相同。设备打包下架,和运输后再上架安装的整个迁移过程,需要做到绝无遗漏。

项目窗口期短:客户业务处在关键期,对业务连续性要求甚高,仅协调8天搬迁窗口期。而常规搬迁流程要经过调研&方案设计、服务准备、搬迁实施、压测上线四大环节,协调资源多、调度场景复杂,最少需要10天执行时间。压缩执行周期注定要投入饱和人力和物力资源,保障各环节紧密衔接,这对项目管理和执行效率都提出很大挑战。

设备价值高昂:除了通用计算设备外,此次搬迁设备中包括几百台针对AI训练的GPU设备,价格昂贵,总价值达到5亿元人民币,这极大考验执行团队的专业度。

1.jpg

“因地施策”的定制化搬迁方案

胜兵先胜而后求战,只有准备万全才能成功。浪潮信息在搬迁启动前,要制定详尽的执行方案:首先要实施数据迁移/备份方案,确保数据资产安全;其次对双边机房进行充分地勘察调研,包括设备布局、布线安排、设备出入路线等;再根据调研结果, 创建详细的设备清单、停机流程、搬迁顺序和搬迁后设备布局表,对于装拆工具配置、人员安排、运输设备也要提前规划;最终在设备重新上架部署后,进行系统恢复和上线测试,包括电力供给的稳定性、网络的稳定性、服务器状态以及数据完整性、可用性等,最终实现设备平滑稳定上线。其中这几个关键环节是重中之重:

制定匹配的数据安全方案:在了解客户存储、系统架构、数据库等相关软硬件配置信息,和业务系统流程、业务运行状况后,考虑目前存储利用率并不高及短迁移周期条件,执行团队认为通过同构存储间做数据镜像,能够高效实现数据完整保护备份,是目前最合适的数据安全方案。

技术保障长途物流稳定可靠:搬迁地距离乌兰察布超过1600公里,高速连续车程要近20个小时,路途遥远意外难料,安全红线必须时时挂起。为避免运输途中由于路面颠簸导致硬件设备故障,浪潮信息曾专门针对车辆运输问题,做过大范围的道路监测实验,在车辆内部、外部,以及服务器外壳、主板等不同部位安装数十个传感器测试装置,记录下大量路谱数据,再针对性地改善服务器结构、承重、包装甚至运输车辆的运行状况。如今这些测试结果在搬迁安全性保障中发挥着巨大作用。

运输过程中还应用北斗卫星定位实现物流可视化,实时定位和追踪车辆行程信息,确保漫长路途中一切顺利。在全程监督下完成一机一套原厂包材打包后,包装箱会粘贴封条并拍照,最终按箱数和封条情况签收,让每台设备在整个搬迁链条中都处于全天候监护状态。

2.png

细致入微提高搬迁执行效率:在打包装配环节,通过标签定位法让设备在下架和再上架环节能够精准部署,避免忙乱中出错;由于搬迁设备庞杂,集中打包装车十分耗时,实施团队商定采用多次小批的滚动发车方式,调集15辆专用大型厢货车,单车满载即发“抢”时间。

GPU服务器在搬迁后要重新做压力测试,以保证其达到搬迁前性能标准。按照常规10台设备/人天的标准压测效率,几乎无法在项目期内完成。在上架后压测环节,服务实施团队曾专门制作智能压测软件,可根据场景需求智能调度压测方案,允许近百台GPU设备同时运行测试,效率提升50%。此外还从各地调拨批量压测所需设备,为客户本地工程师提前赋能压测能力。

3.jpg

保险措施确保设备无损上线:为最大限度降低客户设备的最终损坏率,浪潮信息利用自身全国服务网络,提前调取了各类替换部件,包括CPU、RAID卡、硬盘、主板、电源在内的20类部件共计300余件,以防搬迁出现突发意外造成设备损坏后,能第一时间替换损坏部件,确保设备上线万无一失。

经过一系列精心措施保障,搬迁项目只耗时7天,比预期缩短1天提前完成,所迁移近千台服务器设备经过加电及压力测试后,在新机房100%无故障上线,客户业务如期开展,保障了上亿元的财产安全。正式投入使用后,客户AI业务承载能力迈上全新的台阶,为快速发展奠定了坚实基础。后续,浪潮信息还提供完整的搬迁文档和操作指导,帮助客户快速熟悉新环境,并持续响应客户问题和提供原厂硬件维修或备件支持。

浪潮信息“四心”优势,保障搬迁服务

浪潮信息提供数据中心搬迁服务,通过专业工程师进行设备健康检查、下架、搬运、上架、测试调优等工作,在安全可靠地完成设备物理位置变更的基础上,保障客户业务和数据随机器平滑迁移和恢复,并进行计算集群优化。

专业技术引领,安心:依托全球领先的IT技术和丰富的服务经验和深厚的技术能力积累,具备服务器、存储、网络、HPC等全类设备应用场景规划和优化能力,提供技术层面专业建议和强力保障。

定制服务方案,精心:可根据客户个性化需求定制搬迁方案,按照客户要求细化搬迁工序,从需求拆解到交付验收,SN级精细化管理,端到端全链条服务。

全部厂家覆盖,省心:搬迁服务不仅支持浪潮信息的服务器、存储、网络等设备搬迁,同时支持市面全部第三方厂商的设备,满足数据中心多样化设备搬迁需求。

出海资质齐全,舒心:覆盖全球的成熟服务体系,丰富的海外交付合规经验,齐备的国际货运和报关资质,有效减少涉外合规风险,实现技术人力和物流全时全域覆盖。

#互联网 #智算中心建设
相关产品