本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

简体中文
首页 > 关于我们 > 新闻中心 > 元脑企智EPAI核心计算框架,实现大模型跨平台多元算力适配

元脑企智EPAI核心计算框架,实现大模型跨平台多元算力适配

2025-04-08

当前,AI产业正经历前所未有的技术革新,多模态理解、长上下文推理等前沿技术推动大模型应用进入爆发期。 然而,随着语音生成、AI视频、AI图像等生成技术的广泛普及,算法创新驱动算力需求变得多元化且极为复杂,多元算力适配也同时成为制约AI规模化落地的关键瓶颈,企业普遍面临适配成本高、优化门槛高、多元算力协同困难等问题。

元脑企智EPAI(Enterprise Platform of AI)通过创新的多元多模计算框架,实现“一次开发,多元算力轻松部署”,支持主流大模型跨平台无感迁移。这将传统团队数月才能完成的开发与适配周期大幅压缩,帮助企业从底层适配困境中解放出来,专注于业务创新与价值创造。

多元算力百花齐放,为何企业却陷入适配困境?

在多元算力生态呈现出百花齐放繁荣景象的同时,不同厂商的芯片在软件生态、开发工具以及优化方法上也呈现出另一面显著差异,这也导致全栈软件生态构建面临诸多共性问题,其中多元算力适配已成为阻碍 AI 规模化应用的关键瓶颈,具体体现在以下方面:

■ 适配成本高:企业转化到新型算力平台时,往往需要投入数月时间熟悉其专用软件工具和编程方法,期间常遭遇系统不兼容、算子不支持等问题,严重影响开发进度;

■ 优化门槛高:为了能够充分释放硬件性能,技术团队需要同时精通CPU、AI 加速卡乃至整个服务器系统的 “调优秘籍”。但现实情况是,大多数企业技术团队难以达到如此高的技术要求。以一家传统制造业企业为例,其技术团队在尝试优化AI加速卡性能时,由于缺乏对多种硬件协同调优的经验,导致投入大量时间和精力后,性能提升效果仍不理想;

■ 协同难度大:当多元算力混合协同时,如何实现多元算力平台间的协同运行与统一调度,以及如何智能分配计算任务,都需要深厚的系统级经验。例如,某互联网企业在搭建大规模AI集群时,使用了不同厂商的AI加速卡,在协同运行过程中出现任务分配不均衡、资源浪费等问题,严重影响了整体计算效率;

■ 运维挑战大:AI系统在长时间运行后可能出现难以复现的故障,需要从加速卡到系统的全栈排查能力,企业往往力不从心;

■ 迭代跟不上:大模型算法迭代迅速,芯片厂商的软件栈也在持续更新,这使得用户难以及时在不同硬件平台上实现高效适配和优化更新模型。

元脑企智:打破多元算力壁垒,释放产业潜能

为实现对于多元多模的快速支持与无感迁移,元脑企智EPAI应运而生。元脑企智EPAI内置了浪潮信息自研的核心计算框架TensorGlue,可实现大模型应用在跨算力平台上的无感迁移。TensorGlue向上紧密支持PyTorch、PaddlePaddle、TensorFlow、vllm等常用的深度学习框架,向下无缝对接多元算力,目前已成功支持DeepSeek、源2.0、Qwen、LLaMA、GLM、Mixtral、BaiChuan等十多种开源大模型的微调和推理,帮助企业突破跨平台适配难、适配成本高昂、优化难度大、多元算力协同运作困难等一系列棘手问题,让企业开发者无需再为底层硬件适配而困扰,真正实现“一次开发,多元算力轻松部署”的便捷体验。


9.png


图1  TensorGlue计算架构图


// 统一算力接口,简化跨平台开发

TensorGlue通过定义一套统一的运行时对接框架接口,实现了对多元算力的高效支持。这不仅简化了跨平台开发的复杂性,还将开发效率大幅提升了 60%。 基于统一的框架接口,不同芯片能够更加便捷地接入PyTorch、PaddlePaddle、TensorFlow等主流深度学习框架,为多元算力的高效集成提供了强有力的支持,大幅降低企业在多元算力混合协同环境下部署AI应用的门槛。

// 算子统一注册,提升接入效率

针对当前主流框架在算子注册方面的复杂性和局限性,TensorGlue创新性地采用插件式硬件接入方案,自动生成对接计算框架、芯片算子及运行环境的代码,大幅简化算子注册流程,提升接入效率。

基于与智源研究院的战略合作,TensorGlue计算框架已全面接入智源Triton算子库FlagGems。FlagGems算子库覆盖广泛,旨在为企业大模应用开发提供高性能、跨硬件、多框架兼容的大模型算子集合,支持在多元算力平台上高效运行复杂算法。目前,TensorGlue已完成200+大模型训练和推理的算子适配,其中,融合算子softmax_topk算子经优化后计算效率提升达40%,显著加速大模型训练与推理。

10.png

图2 TensorGlue算子统一接口原理图

// 模型优化,最大化算力效率

TensorGlue针对不同算力板卡的硬件架构和优化策略,提供了全局优化和局部优化相结合的模型优化方案。在全局优化方面,编译器将模型转换为图,并进行图拆分、节点消除、节点融合等操作,实现多卡并行运算。在局部优化方面,结合算力板卡架构和底层算子库,对算子进行计算并行度、内存访存、计算指令等方面的优化,确保算力资源的高效利用,在提升计算效率的同时,大幅简化算子实现的复杂度,显著提升模型的性能表现能力。在大模型推理方面,TensorGlue结合vllm中的Paged Attention、Flash Attention等性能优化方式,并引入了KV-cache低精度存储和计算等优化策略,整体性能相比原生性能提升达到30%。

// 多框架支持,实现无缝迁移

TensorGlue全面支持主流的大模型训练框架DeepSpeed和Megatron,以及大模型推理框架vllm,并持续扩展支持的软件范围。用户可以保留原始框架的使用方式,实现代码的无缝迁移。在大模型训练阶段,TensorGlue展现出显著优势,例如,除了支持DeepSpeed和Megatron的主要特性外,还通过充分的大模型训练收敛性、多机训练稳定性验证与加强,以及制定常见故障的处理策略,确保用户在进行长时间的训练任务时不会因为系统频繁的故障而影响开发效率。

元脑企智,持续释放多元多模创新活力

在多元算力生态蓬勃发展的新阶段,AI应用创新正迎来前所未有的机遇。元脑企智EPAI将持续创新突破,依托全流程应用开发支撑平台和智能算力调度能力,大幅降低跨平台开发、算子适配等环节的技术门槛和成本投入,全面提升AI应用的开发效率和运行性能,真正解决企业在AI落地过程中的关键痛点,加速AI规模化应用的落地。