浪潮信息彭震：激发创新活力，加速AI落地

2024-04-23

浪潮信息董事长彭震在生态伙伴大会IPF2024上表示，发展人工智能+，要坚持“以应用为导向，以系统为核心”，着重激发创新活力、拓展创新路径、加速创新落地，推动AI成为千行百业的生产力。

人工智能给整个社会生产力带来了根本性的改变。人工智能改变了生产力三要素，使得劳动者不仅仅是人，而变成了“人+人工智能”，生产资料从传统意义上的有形要素改变成无形，也就是数据。劳动工具发生了巨大变化，过去的工具是人的肢体延伸，但是在人工智能时代，工具成为大脑的延伸，也会产生智慧。

根据权威机构的预测，AI在2023年到2030年间累计对GDP产生的影响将是蒸汽机在1830年至1910年间对整个经济影响的4.5倍。今天我们感觉AI没有那么大的颠覆性，是因为AI还在快速的向人类学习，当AI的智慧超越了人类，我们就会发现AI将以迅雷不及掩耳之势改变世界，而且这种改变是不可逆的。

发展AI，以应用为导向，以系统为核心

推进应用，发展AI产业，要把握住产业的客观规律。首先，应用是AI最重要的要素，应用将会给AI带来巨大的牵引力。其次，AI有三个要素构成，算法、算力和数据，AI的突破是三个要素系统发展的结果，未来的突破要从这三个方向一起发力，而不仅仅聚焦在某一方面。

算法是驱动应用发展的直接动力。大模型算法的创新趋势主要是扩大规模和MoE混合专家系统的采用。千亿参数是大模型智能涌现的临界点，而且参数规模越大，涌现的能力越大，在多个垂直领域开始超越人类。混合专家系统是把不同的专家系统组合起来，统一调度形成更好的智能涌现。模型规模从千亿走向万亿，单一模型到混合专家系统，越来越复杂，需要的算力规模越来越大。

算力是AI算法创新的工具，算法的需求拉动了算力的创新。算力的发展不仅仅源于芯片，更源自系统创新。从2017年Transformer架构诞生至今，按照摩尔定律推算，芯片性能只提升8倍，但是通过系统创新，AI计算的性能提升超过1000倍。系统创新涉及方方面面，例如算法精度、计算架构、系统互连等。算法层面，过去大模型精度最开始是FP32，到现在FP8，未来会走向FP4，算力效率不断翻番增长。计算架构层面，从简单的CUDA核心到Transformer引擎，张量计算变成多维矩阵计算，整个计算体系针对矩阵计算进行了优化，让整体性能提升了1000倍。系统互连层面，模型参数量越来越大，万卡成为AI系统设计的起点，集群的效率变得越来越重要，无论是系统内互连还是节点间的互连都直接关系集群效率。GPU间的点对点通信带宽从2017年32GB/s，到今天的1800GB/s，提升了56倍，有效降低了节点内通信开销。对于节点间互连，超级AI以太网诞生，相比传统以太网，让集群训练效率提高了1.6倍。

数据扮演的角色越来越重要，有人说谁掌握数据，谁就掌握了AI智慧涌现的重要话语权。随着高质量数据的规模增长，模型的精度也会指数级的提高。目前训练数据量越来越大，人类所产生的已知数据对大模型来讲远远不够。通过AI技术合成数据成为一个主要的趋势。可以说，在AI时代要去掌握业务的话语权，就要掌握数据，掌握数据处理能力，掌握数据的创新能力。

总之，发展人工智能+，要以应用为导向，以系统为核心，实现算法、算力、数据三要素的协同发展。落实到具体实践中，就是围绕活力、路径、落地开展创新，以开源开放、多元多模激发创新活力，以系统创新、全局优化拓展创新路径，以协同共生、开放共赢的生态加速创新落地，从而实现AI创新与AI应用协同发展。

开源开放，多元多模，激发创新活力

开源开放是创新活力的源泉，在互联网时代，开源开放打破了过去的技术垄断，使得更多人参与到开源社区，贡献代码，贡献想法，共谋发展。

在AI时代，开源开放会起到更大的、更积极的促进作用。芯片领域，90%以上的高端芯片厂商都支持了OAM开放规范，不同的芯片可以在一台机器上运行，极大的降低了产业创新的难度，降低了技术创新试错成本和适配成本，促进了算力创新。大模型领域，LLaMA2开源平台被众多大模型算法所引用，2/3的大型语言模型都选择了开源。开源开放促进了整个产业的繁荣发展。

开源开放使得AI领域迸发出了大量的创新企业。算力多元化，CPU、GPU、TPU、NPU等各种各样的芯片不断出现，大模型也层出不穷，形成了多元竞争、百模竞秀的良好局面。这不是重复造车，这是对产业极大的促进。从历史来看，很多技术、文明诞生的初期，都是百家争鸣、百花齐放。产业发展初期有很多家企业在创新，随着产业发展，企业会逐渐聚合收拢，与此同时，产业规模将会越来越大，逐步扩张，整个过程呈现一个双漏斗形状。通用人工智能发展初期，应该是百舸争流、大浪淘沙，在市场竞争中不断完善和发展，最终通过市场之手、用户之手来选择。

系统创新，全局优化，拓展创新路径

从具体实践看，千亿参数是大模型智能涌现的门槛，万卡是AI系统设计的起点。这对目前系统的算法效率、计算资源、互连带宽和能效提出了不小的挑战。那么面对这些挑战，系统创新、全局优化具体应该如何展开实施呢？

首先，在算法效率层面，很多大模型平台的利用率都很低，大部分算力被浪费掉了。所以，一个大规模计算系统中，互连、算法等关系整体效率的工作越来越重要。我们曾经在一个芯片平台上做大模型训练，发现平台的互连带宽非常之低，为了克服这样的问题，我们在算法层面做了大量的并行优化，包括优化器参数并行、数据并行、流水并行等，降低了对带宽的依赖，让整个平台效率提升了33%。

其次，通过硬件重构和软件定义解决资源不足的问题。去年我们发布了融合架构3.0，通过高速互连总线实现各类资源解耦，包括CPU和GPU的解耦，当GPU算力不足的时候，我们可以做到单节点16卡、32卡，直至达到CPU与GPU的最佳配比。这是一个全新的架构，打破了以芯片为核心的单机系统设计思路，是以万卡集群做为设计出发点的、以系统为核心的全新架构。当然，有了如此复杂的系统，就要开发相应的感知调度软件，包括业务感知、资源自动调度和弹性扩展，这就是软件定义。

再次，互连会变得越来越重要。过去AI的计算模式叫AI Factory，是一个单一任务的集群，现在出现了一种新的混合模式AI Cloud。面向AI Factory的专用网络无法支持AI Cloud模式下多用户、多任务、多租户需求，因而越来越多的客户将会采用超级AI以太网。超级AI以太网在整个网络底层采用了乱序重组的技术，通过智能网卡推动整个高速网络的效率提升，因而超级AI以太网有着很典型的特点，就是“交换机+智能网卡”的高效整合。

最后，万卡集群中节点内的P2P高速互连距离是非常有限的，最多能做到1-2个机柜之间的高速互连，所以，AI计算必然走向高密度，机柜供电就要从12-16千瓦走到120千瓦，达到风冷极限，散热将逐渐走向液冷。AI计算、液冷和整机柜的结合将成为未来趋势，浪潮信息将持续推动液冷组件标准化、规模化、产业化，最终实现“风液同价”。

协同共生，开放共赢，加速创新落地

我们建立了元脑平台融合左手伙伴和右手伙伴，推动产业AI化。总结过去元脑生态的发展，我们找到了关键路径，这个既是元脑生态工作的经验总结，也是我们在自身智能化转型工作中的体会，那就是要研制AI的开发工具，对伙伴进行工具赋能。

我们建立了企业大模型开发平台，通过工具赋能千行百业。算法、数据等领域的左手合作伙伴可以将新的技术接入到平台里，为所有生态合作伙伴所用；ISV/SI等右手合作伙伴可以在平台上选择各类快速开发工具；用户获得了一个强有力的智能化转型加速器。而且这个平台支持多元多模，创新实现了上层模型算法和下层基础设施的逻辑解耦，即便伙伴和客户要更换算力平台或者模型，都非常方便，试错成本极低。

结语

AI可能是我们人生中面临的最大的产业机遇。这个机遇是颠覆性的，我们希望能够和合作伙伴一起通力协作，面对这样一个百年难遇的人生机遇，携手共同努力，迈向AI的新时代。

上一篇：浪潮信息发布2024生态伙伴策略：协同共生，释放AI创新力

下一篇：浪潮信息超级AI以太网交换机 X400发布，国内首款基于NVIDIA Spectrum-X 平台打造

返回列表