0. 监控系统目的:为了避免业务系统不可用导致关键业务的运营受到影响,减少业务系统停机时间,提升业务系统可用性,最终提高用户的满意度。

为此,运维人员需要做到:
1. 通过对可能影响业务系统可用性的因素进行持续监控;
2. 在故障发生的第一时间通知相关人员;
3. 通过工具定位故障根因,运维及开发人员在最短时间内解决故障;


1. 为什么要有健康度:
传统的监控工具主要是针对资源层次的监控,关注各种资源的运行状况,但没有对业务系统的运行状况进行整体上的评估。
随着用户量的增加、数据量的增大,业务系统的压力也越来越大,对运行的IT基础资源要求也越来越高。业务系统出现故障,将导致许多基本业务无法开展。因此,一个关乎整体的健康度,就成为了上至业务负责人下至运维工程师必须关注的。

2. 健康度关键点:
2.1 可用性:
首先,将业务系统的运行状态分为“可用”和“不可用”两个状态。若业务系统或其支撑服务不可用,则健康度直接0分甚至负分。
其次,业务系统关联的网络、中间件、数据库的运维状态分为“可用”和“不可用”两个状态。如存在“不可用”状态,则根据关键点重要等级权重计算业务系统健康度。
再次,业务系统底层的硬件设备,也存在“可用”和“不可用”两个状态,考虑到当前服务均使用高可用模式,所以会存在服务“可用”但支持的硬件出现“不可用”情况。

2.2 性能:
性能指标更关注于业务系统,包含:响应时间(可以再细分到:响应时间(宏观);加载速度(微观,各个服务)),可以通过控制性能健康度权重值调节业务系统健康度。

3. 健康度构成
3.1 参数定义
3.1.1 告警级别 L(Level)
严重告警    L2(默认3分)
一般告警    L1(默认1分)

3.1.2 对象级别 O (Object)
不重要    O1 (默认0.5分)
一般    O2 (默认1分)
重要    O3 (默认2分)

3.1.3 性能    P(Performance)
未达到    P1    (默认2分)

3.2 健康度公式
健康度 H (Health)
H = 100 - ΣL * k1 - ΣO * k2 - ΣP * k3,其中 k1/2/3为权重。

4. 总结
业务系统健康度,可以让运维监控人员从海量的告警分析、告警实时监测工作中解脱出来,最直观地了解宏观情况,判断优先级紧急程度。从而极大地提高工作效率。
可以让高层领导实时、快速、动态地掌握业务系统运行健康状况。

配合监控告警、根因定位等系统,能够有效地保障业务系统健康稳定运行,真正做到“事前监控预防,事后根源定位”。
 

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐