编者按:IDC最新数据显示,中国液冷服务器市场2024上半年同比大幅增长98.3%,其中冷板式液冷占据市场95%以上的份额。而在今年的OCP开放计算全球峰会上,液冷同样成为热点议题,冷板、歧管、快接头等液冷组件备受关注,全球都在积极探索液冷技术的持续创新以及产业化实践。作为新型数据中心散热首选的冷板式液冷,更是“乱花渐欲迷人眼”,如何选择最合适的液冷产品及方案已成为困扰数据中心用户的一大难题。下则文章转载至自媒体“IT大嘴巴”。
纵观当下的x86市场,面向企业应用的旗舰级处理器都达到了500W的功耗,一个新的问题出现了——传统风冷散热怕是越来越难以支撑,这意味着散热市场将要迎来新一轮冲击。
这并非危言耸听,反而已经成为了不少服务器品牌的“共识”。至强6900系列处理器发布时,英特尔邀请了包括浪潮信息在内的一众合作伙伴,现场展示的不少样机都采用了硕大的散热片,甚至不少2U机架只采用了单路设计。无独有偶,还有多个国外品牌也同样采用的是2U单路设计,同样搭载了巨大的散热片——还是原来的配方,还是熟悉的味道。
500W高功耗压力迫在眉睫,冷板式液冷将迎来大爆发
在今年举行的2024年度OCP(Open Compute Project)开放计算全球峰会上,液冷同样是一个热点议题。会上,OCP成员展示了冷却环境项目组和冷板子项目的最新进展与成果,Meta、英特尔、微软等多家头部企业发表了关于冷板、歧管、冷却液、快接头等液冷组件的技术创新与规范,并就通过混合冷却建设高密度模块化数据中心,以及液冷部署的可维护性等话题进行分享交流,可以窥见全球层面对推进液冷产业化的探索与实践。在展区也有多家液冷解决方案提供商都展示了自家的创新型产品和方案,比如基于 OCP DC-MHS 和英伟达 MGX 架构的机箱解决方案、为万亿级参数大模型训练和实时推理设计的液冷机柜、气液冷却侧挂式技术等等……
由此看来,业界对于高功耗散热已经提供了多元化的解决方案,也说明传统风冷解决方案在当下已经是捉襟见肘。更可怕的是对于服务器来说,CPU散热还只是一小部分,而AI算力需求的飙升使得越来越多设备需要搭配GPU算力,单芯片/单卡动辄大几百瓦甚至上千瓦的功耗、单机8卡甚至32卡的高密度设计,带来更巨大的散热压力。
那么问题来了——即便是如今风冷还能在一定程度上满足需求,那么下一代呢?再下一代呢?按照如今的x86处理器更新节奏、大模型应用带来的AI算力需求飙升,企业管理者必须考虑到未来3-5年算力需求与数据中心部署的发展问题,散热方案如何选择成为必须要慎重考虑的问题。
而技术成熟、高性价比、安全可靠的冷板式液冷,能够充分满足高功耗、高密度散热需求,无可争议的成为新型数据中心散热首选。
市场数据也佐证了这一趋势。据IDC最新的《中国半年度液冷服务器市场(2024上半年)跟踪》报告显示,中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达到12.6亿美元,与2023年同期相比增长98.3%,其中液冷解决方案仍以冷板式为主,占到95%以上。浪潮信息市场份额占比第一,持续领跑。预计2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。
冷板式液冷部件优化,让安全可靠看得见摸得着
其实液冷技术早在多年前就在关键计算领域普遍应用,但对于主流算力市场来说,受限于成本与应用场景,一直在近些年才逐渐被行业接受。究其原因,一方面是冷板式液冷技术发展愈发成熟,用户普遍担心的漏液问题已经得到了妥善解决;另一方面则是成本大幅度降低,尤其是针对传统数据中心旧有基础设施的改造成本和难度下降,使得越来越多用户具备了使用冷板式液冷的条件,加之产业链成熟度、部件更换运维便捷性、初期投资等多维度的提升,才为冷板式液冷提供了全面普及的基础。
时至今日,几乎所有主流服务器品牌都提供了冷板式液冷解决方案,这也让用户选购的时候犯了难——各品牌的液冷服务器、整机柜、模块化数据中心以及一次侧循环、二次侧循环差别有多大?不同品牌的冷板式液冷的部件是否可以通用?这其实可以从技术能力与解决方案两个层面来考量,技术是方案的基础,方案是技术的凝结。下面,我们就以市占率第一的浪潮信息为例,看看冷板式液冷该如何选。
首先就是技术层面的基础部件,这部分包括冷板、CDU、集成冷源、快接头等等,也是组成冷板式液冷的关键部件。值得一提的是,这些部件虽然看起来普通,但每件产品都有诸多细节,也会影响散热与安全——比如浪潮信息的冷板都是全铜制造,在业界常见的铲齿形液冷板之外,还独创了低流阻冷板,在保持良好散热性能的同时使液体流动的时候流阻更小,为冷却液流动提供更充足的动力,大幅提高CDU利用率。
CDU全称为冷量分配单元,是液冷数据中心整体散热的部件,一般分为风液式、液液式,机架式、机柜式等等。浪潮信息CDU覆盖机架式风液CDU、机架式液液CDU、机柜式液液CDU等全系列产品。其中,最新自研的机柜式CDU集成液冷系统控制模块,具备恒温供液、恒流供液、漏液监测、防凝露、溶液质量监测等功能,适用于大中型排级或微模块级板式液冷机房场景。
许多用户可能会对液冷的安全性有疑问,尤其是担心“漏液”问题。其实随着技术的发展,这类问题出现的概率已经非常低。而为了从根源上彻底解决这一难题,给客户“吃上一颗定心丸”,浪潮信息还首创了液环式真空CDU,可以使得液冷系统二次侧均为负压,彻底杜绝了漏液隐患,在技术极简化同时实现了可靠性的大幅提升。
更有意思的是快接头,它虽然看来无足轻重,但却是关乎“漏液”与否的核心部件——由于数量多、插拔次数多、精度要求高、容错率低,快接头的可靠性在液冷系统全生命周期中至关重要。也为了让更多用户用上安全、稳定、可靠的快接头,浪潮信息积极推动UQD液冷接头标准化工作,携手第三方认证机构及英特尔共同制定UQD认证标准,这样解决了不同品牌接头互插互换带来的问题,即便服务器替代了,使用的冷板式设备还能够重复利旧,也进一步降低了客户采购成本,推动了行业标准化。
基于上述技术积累与沉淀,今年1月浪潮信息与英特尔联合发布全球首个全液冷冷板服务器参考设计,并面向业界开放,为全球液冷产业链上下游提供极具价值的参考样板,推动先进全液冷冷板解决方案在全球数据中心的大规模部署应用,实现数据中心更加绿色低碳可持续发展。
以上,就是对于单台服务器来说,所需要关注的冷板式液冷技术问题。但如今的数据中心或智算中心都会部署成百上千台设备,因此在设备选择的时候更多会考虑整机柜级乃至数据中心级的一体化设计。所以,仅提供可靠的部件和服务器还不够,有技术有能力有远见的服务器品牌更要提供安全完善的一体化解决方案,这也正是浪潮信息的价值所在。
整机柜级与数据中心级交付,让液冷从此变简单
相对于传统风冷来说,液冷设备的部件会更多,在部署和应用难度上也更为复杂,日常的运维要求也更高。因此,在我参观过的多家液冷数据中心案例中,大部分用户都是选择一体化的统一部署,至少在某个机房或者某个机柜层面选择的是一体化部署,这样尽可能将液冷的应用难度与风险都降到了最低,后续日常运维也更为简便。
但这就并非是所有品牌都能实现的,在机柜层面就要求服务器厂商具备整机柜的研发能力,而且还能够进行液冷化应用的创新。那么作为国内首家推出整机柜服务器的厂商,浪潮信息有着多年的整机柜探索经验,与京东云联合推出天枢(ORS3000S)液冷整机柜服务器,实现业界首次冷板式液冷整机柜的大批量交付,并创新推出了国内首款符合《整机柜服务器通用规范》的产品——元脑ORS6000G7整机柜服务器,并面向社区开放该产品的全部设计规范,推动实现全产业规模化应用。
元脑ORS6000G7整机柜服务器实现了开放兼容,机柜和节点的彻底解耦,同时兼容19/21英寸节点,满足多种算力部署需求;支持柜级液冷,冷板覆盖率高达90%以上,无需机房额外制冷,数据中心能耗降低25%以上,经实践验证PUE低至1.1。
据国家发展改革委等部门研究制定的《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》明确指出,到2025年国家枢纽节点的PUE要进一步降到1.25以下,绿色低碳等级达到4A级以上。而PUE低至1.1,这意味着已经远超国家要求,也接近于冷板式液冷散热的极限——熟悉液冷的朋友都知道,即便是成本更高、要求更苛刻的浸没式液冷,最佳成绩也只有1.049;而大规模部署条件下,一般会保持在1.08或者1.09。相比之下,实用性更强、成本更低的冷板式液冷已经可以将PUE控制到1.1,这说明浪潮信息已经在尽力挖掘冷板式散热的潜力,也体现了其领先的技术水平。
如果你觉得整机柜解决方案还不能满足特定场景数据中心需要的话,浪潮信息还提供了液冷数据中心整体解决方案,其中包括了上述提到的所有内容,从室外液冷一次侧循环冷源到室内CDU、集液器、液冷二次侧循环、液冷服务器等全线布局,为用户全方位打造从规划、建设到实施的液冷数据中心交钥匙工程。当然,这种解决方案一般都需要基于实地情况因地制宜,用户可按需选用模块化、预制化等建设模式,实现了算力规、建、运的全面支撑。
为进一步推动液冷产业化,浪潮信息提出了2025年实现风液同价的目标,为此浪潮信息不断优化液冷产品的设计和工艺。截至目前,浪潮信息已经拥有500多项液冷技术领域核心专利,已参与制定与发布10余项冷板式液冷、浸没式液冷相关设计技术标准,并牵头制定《模块化数据中心通用规范》国家标准,牵头编写国内首批冷板式液冷核心部件团体标准,对液冷产业的快速发展及液冷技术的大规模普及建设具有重要的指导意义。
注:本文转载至 IT大嘴巴,内容略有更改