本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>
场景分析
大模型开发是一项极其复杂的系统工程,从研发到应用还面临着重重挑战。对于大部分团队来说,即便解决了底层算力供给的问题,仍面临算力集群部署复杂建不好、因算力平台效率低、稳定性不足和模型开发环节冗长而用不好的问题。
构建算力平台需考虑服务器、存储和网络等硬件的集成,还需考虑不同硬件和软件间的兼容性和版本选择,以确保驱动和工具的适配与稳定。
集群训练效率低,故障频发会导致训练中断后不能及时恢复,降低大模型训练的成功概率,提升训练成本。
模型开发环节冗长,需要具备高效的、工程化工具的支撑。
解决方案
OGAI (Open GenAl Infra) 面向以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。
方案价值
通过开源业界首个AI算力集群系统环境部署方案PODsys,结合AI算力集群优化经验,全面覆盖OS、驱动、系统监控可视化和资源调度等集群系统环境要素。
实现兼容广泛、高效自动化部署,向企业用户提供实施服务和集群性能校准服务。
以标准化、模块化的芯片接入方式,稳定接入超过40+芯片,芯片接入工作量减少90%,提高GPU计算效率。
算力调度平台层AIStation实现自动化断点续训,能够自动检测计算异常,并在5分钟内快速恢复异常中断的计算任务,保证大规模训练的稳定性。
通过YLink构建了流程化、可自定义的数据清洗pipeline,把1PB数据清洗时间从1个月缩短到15天,文本审核过滤准确率达到93%。
优化分布式并行算法,将千亿参数大模型、千卡规模的计算效率提升到54%。
OGAI的模型管理平台MModel目前支持超过10个业界主流的开源大模型和元脑生态大模型,并支持自动化的对比评测和人工评测,模型评测效率提升100%。