首页 > 关于我们 > 新闻中心 > 龙蜥副理事长张东:加速推进AI+OS深度融合,打造最AI的服务器操作系统

龙蜥副理事长张东:加速推进AI+OS深度融合,打造最AI的服务器操作系统

2024-09-04

AI原生时代,操作系统厂商要全面优先拥抱AI,深度融合AI能力,发挥关键生态位作用,做好上游芯片与下游AI应用开发商之间的纽带,打造最AI的服务器操作系统,实现AI能力的快速价值转化。

AI原生趋势下,底层硬件需要提供更复杂的计算资源,包括多元化的通用处理器与AI加速芯片、更高效的内存、网络、存储IO等等,硬件的变化要求操作系统具备更加有效管理和分配能力,确保AI应用的高效运行。

操作系统如何满足AI应用场景需求?未来发展趋势如何?2024龙蜥操作系统大会上,龙蜥社区副理事长张东分享了题为《智算引领 系统创新》的主题演讲,指出AI原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最AI的服务器操作系统。

1.jpg

AI原生化加速,操作系统面临全新挑战

AI可谓是现在最大的产业变革,带来的影响比以往任何技术都更为深远。甚至就像计算机诞生一样,对于整个人类的发展产生很大的影响。AI的影响力不仅体现在IT领域,它还从根本上改变了很多行业创新和发展模式,成为推动生产力向前发展非常重要的一点,现在国家提出要发展新质生产力,AI就是新质生产力最典型代表。

2.jpg

目前,AI已经应用于各个领域,比如,通过AI大数据的加持,传统科学研究方法大大加速,让攻克难题成为可能;通过自动化生产线和智能机器人,AI提高了制造效率和质量控制……

3.jpg

AI应用的快速发展,对底层硬件需求激增,加速卡、存储的不断增长造成单机功率、密度越来越大,并且数据中心规模不断扩张,而硬件资源扩展对资源调度能力提出考验,操作系统也要随资源变化进行调整。

通过堆砌资源的方式满足AI需要的道路很难持续,这个过程中操作系统面临几个挑战:一是对多元算力的支持,操作系统需要协调CPU、GPU以及其他专用芯片,如何把算力高效组织起来;二是AI本身的编程环境非常复杂,软烟囱林立,用户面临环境选择难题;三是效率、性能的优化和可靠性、稳定性等方面,对操作系统提出更高要求,在出现故障的时候能够快速定位,能够快速恢复;最后,确保AI原生的安全,防止数据隐私泄露。

应对AI原生,以应用为导向、以系统为核心创新架构设计

面对AI原生化对基础设施带来的变革,浪潮信息提出“以应用为导向,以系统设计为中心,建立多元异构算力融合、软硬协同优化”的技术发展路线,其中,操作系统是软硬协同设计与优化的核心。

4.jpg

张东表示:“我们提出以应用为导向,是面向最终的应用场景,以系统为中心,系统则是指包括了服务器整机+操作系统+基础应用环境在内的整体。应对AI带来的改变,需要软硬件整体创新来解决。”

5.jpg

围绕着AI大模型的训练,浪潮信息从硬件上引入了多项的技术,构建面向大规模计算的融合架构3.0系统,通过高速互联总线,对计算、存储进行了解耦,实现内存、存储、异构加速及通用计算等资源池化,支持硬件资源快速部署,完善各类芯片之间的内外部互联,并引入400G高速网络及海量存储。

在系统软件层面,对于操作系统进行多项改进。一方面,在AI原生背景下,操作系统需要持续演进去满足对异构算力环境的支持,对数据多态、跨模态巨量数据的管理,以及对各种新型融合网络架构支持。再者,大模型的开发涉及到数据准备、模型调整、基础训练、微调训练、模型评估、部署验证、服务发布等复杂的流程,在模型开发过程中,也需要操作系统给予支撑。

同时,AI的发展也会对操作系统带来的变化,在未来的环境里,算力的维护、管理更加复杂,很多工作靠传统的人工很难实现,AI可以提供更多的辅助,让数据中心的运维管理,从原来自动化走向智能化,真正实现AIOps。此外,操作系统的开发也可以利用AI进行辅助编程,测试用例的自动生成,帮开发人员自动找到系统bug。

对此,浪潮信息升级服务器操作系统KOS,实现多元算力高效调度,通过自动化工具快速配置AI开发环境,并在调度、内存管理、网络、IO方面进行了大量优化,具备了智能运维、系统故障智能定位、自动化部署管理能力。

6.jpg

基于开源开放的理念,浪潮信息积极参与社区工作,围绕技术创新、标准、规范以及生态合作和应用推广进行大量工作。同时,浪潮信息也在推动国内开放计算的体系建设,龙蜥社区及其他开源软件是整个开放计算重要组成部分。

AI原生First,打造最AI的服务器操作系统

“云+AI”开启算力新时代,龙蜥则让更多 AI 大模型新应用长在创新操作系统上。据了解,龙蜥社区是业界最早展开操作系统 AI 探索的,现已兼容国内外主流GPU,并针对广泛使用的AI框架提供 OpenVino 在内的原生支持。

本次大会,龙蜥社区正式发布了“CentOS替代计划”“Anolis OS 23生态衍生计划”“AI应用推广计划”三大计划,并首次公布了“AI 原生操作系统”发展路线,提出AI容器镜像、智能运维 AIOps、OS Copilot 文档建设等三大探索方向,加速 AI 与操作系统的融合发展。

7.png

作为龙蜥社区副理事长单位,浪潮信息自2022年加入社区以来,积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设,获得最佳合作伙伴奖。

“现在操作系统对AI的适应实际上还远远不够,操作系统如何进一步真正变成AI原生,更好支撑AI的训练和推理,还需要更大级别的创新,希望产业界能够形成合力,共同打造最AI的服务器操作系统”,张东谈到。

在演讲最后,张东对服务器操作系统及社区发展,提出三大建议:

一是AI原生First,社区要全面优先拥抱AI,深度融合AI能力,发挥操作系统关键生态位作用,做好上游芯片与下游AI应用开发商之间的纽带,打造AI场景下原生兼容、稳定的基础软件,实现AI能力的快速价值转化;

二是坚持应用导向,强调需求牵引,将社区技术创新与应用场景紧密结合,创新基础软件与硬件、应用之间的协同模式,打造面向领域垂直场景的最优解决方案;

三是强化开放中立,社区撕掉单一厂商标签,强调共治共建共享,建立开放标准,积极与国际领先的社区接轨,保持同步发展,形成繁荣的生态系统。