本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

China/简体中文

场景分析

大模型开发是一项极其复杂的系统工程,从研发到应用还面临着重重挑战。对于大部分团队来说,即便解决了底层算力供给的问题,仍面临算力集群部署复杂建不好、因算力平台效率低、稳定性不足和模型开发环节冗长而用不好的问题。

  • 算力集群部署复杂

    构建算力平台需考虑服务器、存储和网络等硬件的集成,还需考虑不同硬件和软件间的兼容性和版本选择,以确保驱动和工具的适配与稳定。

  • 算力平台效率低、稳定性不足

    集群训练效率低,故障频发会导致训练中断后不能及时恢复,降低大模型训练的成功概率,提升训练成本。

  • 模型开发环节冗长

    模型开发环节冗长,需要具备高效的、工程化工具的支撑。

解决方案

OGAI (Open GenAl Infra) 面向以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。

方案总架构

OGAI软件栈由5层架构组成,从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。

基础设施层 智算中心OS

面向提供公共算力租赁服务的智算中心场景,满足以裸金属为主的多样化、弹性的AI算力需求为核心的智能算力运管平台。

系统环境层 PODsys

聚焦于AI集群部署场景打造的一个开源项目,旨在提供一个开源、高效、兼容、易用的智算集群系统环境部署方案。PODsys提供了包括基础设施环境安装、环境部署、用户管理、系统监控和资源调度一整套工具链。

了解详情

调度平台层 AIStation

AIStation是浪潮信息研发的商业化AI算力调度平台。AlStation面向AI开发场景,通过云原生技术对集群系统中的计算资源、存储资源和网络资源进行统一的接入和纳管,提供了易于使用的开发环境和作业管理界面,并基于内置算力调度系统来实现易于接入、按需分配、弹性扩展和和高效稳定的AI研发应用支撑平台。

了解详情

模型工具层 YLink

YLink聚焦于大模型的数据治理、预训练、微调等开发过程,通过集成整合浪潮信息在大模型研发过程中的工具和开源工具,为用户提供高效、便捷与标准化的大模型开发与优化的工具和流程。

多模纳管层 MModel

MModel是一个为大模型开发者和研究人员提供的具备多模型接入、服务、评测等功能的纳管平台,致力于使大模型的安全管理、便捷使用与能力测评变得更加高效和易用,MModel的核心组件包括: 数据集管理、模型纳管和评测。

方案价值

  • 通过开源业界首个AI算力集群系统环境部署方案PODsys,结合AI算力集群优化经验,全面覆盖OS、驱动、系统监控可视化和资源调度等集群系统环境要素。

    实现兼容广泛、高效自动化部署,向企业用户提供实施服务和集群性能校准服务。

  • 以标准化、模块化的芯片接入方式,稳定接入超过40+芯片,芯片接入工作量减少90%,提高GPU计算效率。

    算力调度平台层AIStation实现自动化断点续训,能够自动检测计算异常,并在5分钟内快速恢复异常中断的计算任务,保证大规模训练的稳定性。

  • 通过YLink构建了流程化、可自定义的数据清洗pipeline,把1PB数据清洗时间从1个月缩短到15天,文本审核过滤准确率达到93%。

    优化分布式并行算法,将千亿参数大模型、千卡规模的计算效率提升到54%。

    OGAI的模型管理平台MModel目前支持超过10个业界主流的开源大模型和元脑生态大模型,并支持自动化的对比评测和人工评测,模型评测效率提升100%。

售前咨询

售后服务

回到顶部

回到顶部

售前咨询
  • 售前在线客服
    需求快速响应
    立即沟通
  • 购买咨询
    服务时间:全天候7*24小时
    400-860-6708
  • 提交项目需求
    提供最佳方案选择
    立即提交
售后服务
  • 售后在线服务
    自助服务,快速解答
    立即咨询
  • 售后服务
    服务时间:全天候 7*24小时
    400-860-0011