【开发者说】云峦KeyarchOS系统运维工具，让运维回归简单！

2024-01-05

【开发者说】专栏是为开发者提供云峦KeyarchOS使用和体验分享平台，本期带来CSDN知名博主“小威要向诸佬学习呀”使用系统异常定位分析工具KSysAK进行内核内存泄漏检测的使用体验。

1 基本信息

1.1 概述

系统异常定位分析工具KSysAK是云峦操作系统研发及运维人员总结开发及运维经验，在龙蜥社区开源项目SysAK的基础上，设计和研发的多个运维工具的集合，可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。工具的整体设计上，力图让运维工作回归简单，让系统运维人员不需要深入了解内核就能找出问题的所在。

系统运维工具按功能划分可分为监控和诊断模式：

系统监控：针对各种系统资源（CPU、内存、网络、文件IO、内核管理结构等）提供更精细化的资源监控，帮助业务运维实现细粒度的运维调度，高效运用资源。

系统诊断：诊断的典型问题如负载异常、网络抖动、内存泄漏、IO毛刺、性能瓶颈、应用异常等，针对性的提供工具，同时尽量减少工具的专业性，让用户更易使用和解读。

而为了实现以上功能，并能够为用户提供简单易用操作界面，系统运维工具KSysAK提供了多个子工具，着重解决不同场景下的监控数据的采集、统计及数据诊断。

1.2 环境详解

IP地址：100.2.93.X

架构：x86_64

类型：虚拟机

操作系统版本：KOS5.8-sp1

内核版本：4.19.91-27.4.7.kos5.x86_64

KSysAK版本：1.3.0

用户名：root

1.3 工具

2 Linux内核内存泄漏检测

内核内存泄漏是指在Linux系统中，由于代码中的错误或缺陷，分配给内核的内存未能被正确释放而导致的问题。这可能会导致系统性能下降，最终耗尽系统的可用内存，甚至导致系统崩溃。

下面我将介绍一些在Linux系统中检测和解决内核内存泄漏的方法：

Linux内核内存分配有几种不同的机制，其中包括slab、page和vmalloc。

KSysAK memleak内存泄露检测工具步骤：

1、集成到项目中

将KSysAK memleak的内存泄漏检测代码集成到需要检测的项目中。这通常涉及将检测代码插入到项目的适当位置，以确保能够准确追踪内存分配和释放情况。

2、编译和运行项目

使用适当的编译选项编译项目，并确保项目成功编译。然后运行项目，让其正常执行一系列操作，包括内存的申请和释放。

3、收集内存泄漏数据

在项目运行期间，KSysAK memleak将记录内存分配和释放的详细信息。这些数据包括每次内存分配的调用堆栈、分配大小、分配位置等。收集这些数据用于后续的内存泄漏分析。

4、分析内存泄漏数据

使用KSysAK memleak提供的分析工具，对收集到的内存泄漏数据进行分析。这可以帮助识别潜在的内存泄漏源头、内存泄漏的大小以及泄漏发生的位置。通过这些信息，开发人员可以准确地定位问题并采取相应的修复措施。

5、修复内存泄漏

一旦通过分析工具确定了内存泄漏的位置和原因，开发人员就可以修复这些问题。修复可能涉及修改代码以确保正确释放内存、修复内存管理逻辑的错误等。在修复后，可以重新运行项目并使用KSysAK memleak进行验证，确保内存泄漏问题已得到解决。

需要注意的是，KSysAK memleak是一种基于宏调用的内存泄漏检测工具，它可能会对项目性能产生一定的影响。因此，在使用KSysAK memleak进行内存泄漏检测时，建议仅在开发和调试阶段使用，并在完成内存泄漏修复后将其从项目中移除，以确保项目的性能和稳定性不受影响。

2.1 page内存泄露检测

执行ksysak memleak -t page -i 80启动检测page内存泄露程序，运行80s(若来不及执行检测程序则可以延长时间)

2.2 slab内存泄露检测

执行 slabtop 命令以查看当前系统的 Slab 使用情况。

执行 cat /proc/slabinfo 命令，获取更详细的 Slab 缓存信息。

使用perf工具跟踪内核中的 Slab 分配和释放操作。

执行ksysak memleak -t slab -i 80检测启动slab内存泄露检测程序,运行80s（若来不及执行检测程序则可以延长时间）。

其系统基本信息如下，可以看到当前系统为 CentOS Linux 7。

3 OS 异常分析

OS异常分析是操作系统中的一种重要技术，用于处理在程序运行过程中发生的异常情况。当程序执行时遇到某些无法处理的错误或特殊情况时，操作系统会通过异常处理机制来响应，以保护系统的稳定性和安全性。

3.1 系统巡查

执行#ksysak ossre_client -d 可扫描日志文件查看系统运行过程中的所有异常信息。

4 检测系统中延迟抖动

服务器操作系统运行过程中，对应用运行的干扰源可能会很多，但干扰不一定会对业务造成影响，所以至少需要包含这些干扰源的频率和运行时间，来评估是否是关键因素。

至少需要包括以下干扰源的统计：

设备硬件中断：如果在业务运行过程中，某一类中断频率过高或者集中到某个 cpu，或者单次运行过长，那么都可能会影响到业务的性能，可以对中断进行打散绑定等操作观察效果。

系统定时中断：系统定时器过多，也可能会对业务的唤醒造成延迟，通常可以分析业务进程是否有大量的使用高精度定时器。

软中断：可能是网络流量是否有突发增加等。

Runlatency 作为系统运维工具KSysAK的一个子工具，用于诊断系统中可能影响应用运行延迟抖动的地方并输出延迟因素。其内核中监控影响进程调度的延时因素（关中断、长时间不调度、运行队列长）。可监控整个系统或单个进程的中断和调度信息，监控的数据包括：

进程/线程调度延迟：比如运行队列挤压、排队时间过长以及高优先级应用抢占或本身调度策略设置不合理。

中断和软中断响应不及时：业务运行过程会依赖于中断和软中断执行过程，包括网络收发包、IO 读写等。因此可以分析关中断时长来判断中断的响应时间。

内核态执行过长：包括系统本身存在的瓶颈以及内核里其他资源竞争等情况。

4.1 系统巡查

执行系统延迟抖动模拟程序 testrunlatency.python (在/root)

执行ksysak runlatency -e 启动延迟抖动监控

执行 ksysak runlatency -r ./out , 将监控数据输出到out目录下

执行ksysak runlatency -d 关闭监控

查看out目录下的输出结果如下：

nosch， hard， soft 类型的延迟信息，所属CPU，进程id，延时时间，命令行，堆栈信息等。

使用curl用于测试Web应用的响应和时间，较小的延迟时间通常表示系统或服务能够更快地响应用户的请求

5 产品总结

KSysAK是一款多个运维工具集合的“结晶”，它可以大大提高运维人员的工作效率，其主要功能是系统的日常监控、线上问题的诊断和系统故障修复，对于系统的检测非常的详细，该产品的主要特点是覆盖面广，使用不受限，这大大体现了产品的实用和广泛性,让运维工作回归简单，让系统运维人员不需要深入了解内核就能找出问题的所在，非常方便！

总体来说，不管是对用户个人还是在岗的工作人员，这款工具一定是当之无愧的，但是在某些方面还是可以再优化的，例如：

可以增强定制化：工具应该允许用户更细粒度地定制模拟泄漏的场景。比如，用户应该能够指定泄漏的大小、速度、以及泄漏发生的位置。

详细的报告：工具应该生成详细且易于理解的报告，以帮助用户识别和解决内存泄漏问题。报告应该包括泄漏的大小、位置、以及可能的解决方案。

实时检测和警报：工具应该能实时监测内存泄露，并在发现潜在问题时向用户发出警报，这样有助于在问题严重前及时解决问题。

还可以做一个可视化界面，对于很多用户来说，命令行可能不爱看，或者说有点复杂，一个直观的用户界面将有助于用户更方便地使用这些工具。

最后，为了确保这些工具的有效性和准确性，建议定期进行质量测试和验证。这样可以确保它们在不同场景和配置下都能可靠地工作。

原文链接：

https://blog.csdn.net/qq_53847859/article/details/134802621

上一篇：评级上调为A！浪潮信息ESG获国际权威指数机构MSCI肯定

下一篇：液冷数据中心生态建设启动：浪潮信息力推绿色算力产业发展

返回列表