首页 > 关于我们 > 新闻中心 > 浪潮信息升级内存故障智能预警修复技术,服务器宕机率锐降80%

浪潮信息升级内存故障智能预警修复技术,服务器宕机率锐降80%

2024-05-16

在《黄帝内经》中,有这样一句话:“上工治未病,中工治欲病,下工治已病”,这表示一位优秀的医师能在人体疾病发生前进行预防。同理,一台智能的服务器,也需要具备预警和修复故障的能力。

浪潮信息全新升级服务器内存故障智能预警修复技术MUPR® (Memory UCE Prevent and Repair),基于对上万台服务器故障数据的建模分析和AI模型算法的训练,围绕“预诊愈”核心技术手段,从单端预警,触发隔离防护升级为BIOS、BMC两级防护,从内存故障提前预警、内存错误实时隔离、内存故障智能修复等技术层级创新,实现在架构设计、错误类型、防护等级等方面全面增强。全天候、多方位监测服务器内存健康状态,精准预测UCE(不可纠正错误)故障,及时处理内存风险单元,使由内存故障导致的服务器宕机风险降低80%+,保障客户业务高效稳定运行。

1.png

当前,数据中心运算集群正面临着运维成本高昂和维护管理繁琐的挑战,特别是长期承受大量计算任务的服务器集群,频繁遭遇各类故障和宕机。据统计,由服务器硬件异常导致的宕机中,高达74%是由内存故障引发的。内存故障可分为UCE(不可纠正错误)和CE(可纠正错误),UCE故障可能会导致服务器立马宕机,因此精准预测UCE故障十分重要。

2.png

同时,随着内存工艺制程技术的提升,虽然内存工作电压不断降低、单位存储Cell的电荷量减少、内存工作频率急剧上升,但同时带来了电荷不稳定以及信号抗干扰能力降低的问题,使得内存UCE宕机故障频发,而业界对于UCE不可纠正故障的预测率较低,在55%左右。安全研究机构波洛蒙研究所进行了一些数据统计,统计结果为:具有一定规模的企业发生服务器宕机事件会带来平均每分钟近9000美元的损失成本,小型企业的损失在每分钟137至427美元。

3.png

MUPR®自研核心专利技术,保障内存可靠性和高效性能

为切实解决客户痛点问题,浪潮信息全新内存故障智能预警修复技术MUPR®,该技术拥有超过20项核心专利,覆盖内存故障处理策略、防护系统架构设计、内存健康监控机制等关键技术,能够有效规避内存UCE故障的发生,切实保障服务器内存运行的可靠性和高效性。

专利一:制定“点、线、面”故障修复策略,故障类型全面覆盖

MUPR®依据内存历史日志的错误发生模式,以存储单元的核心构造为基石,实时监测内存“点、线、面”微观故障,高效匹配内存UCE发生状态特征。首先实施内存物理结构微观级别的精准检测,深入至每一个内存Cell的状态识别,通过分析内存错误数据提取故障规则,保障内存“点”故障的准确辨识。其次,MUPR®系统对上万条来自不同品牌、不同容量的内存进行了详尽的故障分析。基于对不同内存厂家器件的行/列结构差异的分析,构建内存“线”故障预测模型。最后,依托对内存历史错误的UCE趋向性以及错误在内存阵列的分布情况,设置内存“面”故障模型,在线精准预测及修复策略,为用户提供更加可靠和稳定的内存使用体验。

专利二:优化内存防护系统架构,降低系统计算压力

MUPR®支持SMI(System Management Interrupt)与PRM(Platform Runtime Mechanism)的选项切换技术,引入PRM技术旨在降低系统计算压力,避免因处理内存故障而影响系统性能。该技术通过收集的内存错误信息进行带外故障预测,根据预测结果决定是否触发系统控制中断。而在触发中断的情况下,操作系统可通过PRM处理模块获取内存故障地址信息,并执行故障隔离操作,客户业务运行全程无打断。

专利三:实时监测内存运行状态,有效减少非计划宕机风险

鉴于任何防护措施都不能完全确保内存器件的持久稳定运行,MUPR®系统构建了一套完善的服务器内存健康监控和风险预警机制。该机制依据内存错误数量、频率、类型、修复状态、错误风暴、温度变化等多方面信息进行内存可靠性评价、性能评价,以便客户在不同业务场景下选择性的对可靠性或性能异常的内存进行计划停机维护,有效规避非计划宕机带来的影响。此外,该技术可有效对内存健康情况进行评测,并根据内存健康度分数对内存异常进行预警,当内存分数低于异常阈值,提示用户及时更换健康硬件。

4.png

MUPR®技术开发团队,通过对云数据中心130万台服务器进行综合测评,整体服务器宕机率减少了68%,可帮助客户避免千万美元级别以上的损失。

5.png

内存故障智能预诊愈引擎,MUPR®关键修复技术

发现内存风险是第一步,而如何快速修复才是保障系统稳定的关键,MUPR®内存故障智能预警修复技术在操作系统、处理器、内存本体三个层级对风险单元进行全方位防护。

操作系统层级:基于操作系统内存管理与内存故障处理机制的故障页隔离功能,可以将存在风险的内存故障页进行主动隔离不再访问。

处理器层级:使用处理器级别的单颗粒纠正、锁步与块故障替换、内存镜像等技术,针对不同内存错误严重程度调用相应内存修复技术,防止数据丢失和系统崩溃。

内存本体层级:基于内存SPEC及厂商定义的故障行替换机制,可以对内存故障行进行临时或永久性的替换修复。

MUPR®内存故障智能“预诊愈”引擎,可以自主选取当前内存错误最适合的修复技术,用户无需关心服务器底层的各类复杂技术的选择。针对行故障、列故障、Bank故障、块故障、Cell故障等故障的发生给出最优的修复策略。只需在服务器固件中启用MUPR®功能,ISBIOS®、ISBMC®即会通力协作,检测内存发生的每一笔CE错误,强力支撑MUPR®预诊愈引擎运行。同时,深度运用CPU平台的各种RAS修复机制,如PCLS、ADC、ADDDC等,强力释放系统容错潜能,适时启用内存颗粒的故障行PPR修复机制,精确执行Windows、Linux操作系统故障内存Page Offline,大幅度降低内存UCE故障宕机风险。

搭载了MUPR®技术的浪潮信息元脑®服务器,可实时监测内存行、列和Cell中的微观故障,高效匹配内存UCE发生状态特征,准确预测有较大概率发生UCE错误的内存地址,基于预测结果及时启动相应的隔离修复机制,治病于未发、防患于未然。以50万台服务器级别的数据中心为例,内存UCE发生率按年化1%计算,MUPR®技术可以有效规避80%+的内存UCE发生,每年可以节省约5400万的内存故障维护费用,让系统更加平稳、高效运行。

6.png