数据分析和报警¶
数据预处理¶
对于10s采集的数据,因为部分设备的数据刷新时间大于10s,导致出现数据带宽使用率为0的情况。所以需要对这部分数据做聚合。原始数据作为参考。
计算公式为:
\[C_0 = {{C_{inc0} + C_{inc10} + ...+ C_{inc50}} \over 6}\]
\[B_0 = {{B_{used0} + B_{used10} + ...+ B_{used50}} \over 6}\]
即将第0s个至第50s采集的数据做均值后复制给0s的点。如17:51:00秒~17:51:50秒,6个点的数值平均后记到17:51:00秒上
策略配置¶
警告
对于端口在专线或者出口列表里的端口,不能进入此分析过程,他们单独应用于专线和出口。
策略名
报警策略名字
策略筛选条件
业务线
区域(地域)
机房
POD
业务属性(服务角色)
设备角色
设备IP、IP地址段
端口名
流量方向(进,出)
策略生效时间
支持到小时级别(0-23)
阈值类型
带宽使用率
流量大小(Mbps)
触发阈值
M分钟内使用率>=N达到S次(M,N,S为整数, N可以为流量大小或者流量使用率,根据阈值类型定义)。
恢复阈值
X分钟内使用率 策略生效状态 默认为策略生效状态,开启时源数据进入告警分析模块进行计算和比对,禁用时源数据不进行告警分析 策略告警等级 用于标识该策略的告警重要性程度,分5个等级:A1严重,A3主要,A5次要,A7一般,A9通知 告警组和通知方式 告警组,将不同人员分成不同的组,按组的方式发送告警; 通知方式:邮件、咚咚、微信、短信、电话;针对每个组可多选或者不选; 策略筛选条件的互斥关系¶ 端口名不能单独选择,必须在单选设备IP情况下才能选择对应设备的端口。默认情况下都为多选 机房–POD–设备IP–端口名,存在父子关系,当父节点未被选中或者是多选状态下,子节点不能继续选择;当且仅当机房、POD同时处于单选状态下方可继续选择设备IP; 区域–机房,存在父子关系,当父节点未被选中或者是多选状态下,子节点不能继续选择; 设备IP地址仅仅可以在没有任何其他项勾选的情况下,才可以支持手工输入多个IP地址,或者多个地址段; 报警信息格式¶ 报警信息分为两种,一种是触发阈值告警,一种是满足恢复阈值告警。我们把它称之为告警状态,分为 告警 恢复 。因为告警通道的的不通,为了便于阅读。需要针对不同渠道的报警设置信息格式。 邮件: ----------------------- 标题:【告警通知时间/恢复通知时间】【告警状态(告警/恢复)】【告警等级】【告警策略名】【机房,POD,角色,设备IP,最近一次带宽使用率/带宽大小】 邮件内容: 故障开始时间, 故障持续时间,故障恢复时间(当且仅当告警状态为“恢复”时候才有该时间), 业务线,区域,机房,POD,业务属性,设备角色, 设备IP,设备名称 最近一次带宽使用率/带宽大小 短信,咚咚,电话,微信: ------------------------ 【告警通知时间/恢复通知时间】【告警状态(告警/恢复)】【告警状态(告警/恢复)】【告警等级】【告警策略名】 【机房,POD,角色,设备IP,设备名称】【 最近一次带宽使用率/带宽大小】 【故障开始时间, 故障持续时间,故障恢复时间(当且仅当告警状态为“恢复”时候才有该时间)】 报警的默认收敛规则¶ 对重复的报警信息,实行收敛。 即一条策略被触发后,发送报警通知。同时更新一些计数器。 如果在未满足恢复阈值前提条件下,再次触发了阈值,则该次触发的报警被抑制,不对外发送报警信息。但会涉及一些计数器的更新。 当满足恢复阈值时候,发送告警恢复信息。同时更新一些计数器。 之后,如报警阈值被再次满足,则对外发送新的报警通知。 关于报警时间的规则¶ 整个策略匹配过程及报警过程中,分别涉及多个时间,做如下说明。 1.故障开始时间:第一次触发阈值(满足告警阈值的第一个点的时间) 2.故障触发告警时间:满足告警频次达到告警条件 3.告警通知时间:告警平台对外发送告警通知的时间 4.聚合告警通知时间:故障触发告警时间满足告警聚合周期,多条告警聚合后的由告警平台发出的告警通知时间(仅仅在有聚合报警策略的情况下),有4没有3。 –以下仅针对有恢复的策略– 5.故障持续时间:未恢复的告警,从故障开始时间计算到当前时间点的时间段,在告警实时看板中展示;恢复的告警,故障持续时长=故障恢复时间-故障开 始时间; 6.故障恢复时间:第一个满足恢复条件的时间,通常只有在触发了第7个“故障触发恢复条件时间”时才会被记录 7.故障触发恢复条件时间:满足恢复阈值和频次达到恢复条件 8.恢复通知时间:告警平台发送恢复通知的时间 9.聚合恢复通知时间:故障触发恢复时间满足恢复聚合周期,告警平台发出的恢复通知时间(仅仅在有聚合报警策略的情况下),有9没有8 和NOC工单系统的联动¶ 对于产生的故障告警,需要推送给NOC工单进入工单管理。需要根据工单返回结果对该告警做一个标记,表示目前关于此告警的工单的处理情况。 处理规则: 对于产生的告警(而非进行聚合后的告警,即聚合前的单条告警。),需要推送给NOC工单平台,根据noc平台的返回信息对该条告警设置一个 工单状态标记 。 当NOC工单对该单条告警改变了状态,需要同步的跟新报警系统中该条报警的 工单状态标记 ; 当NOC工单标记为“已完成”,则触发告警恢复,忽略掉恢复阈值的检测,对外发送告警恢复信息;同时这条告警彻底清除,即便真实情况下告警并未恢复。 如果告警恢复阈值检测到满足,则触发告警恢复信息,同时通知NOC工单平台修改该工单状态为”已完成”, 关闭工单。 故障池(故障看板)的联动¶ 但每条告警产生的时候,将该告警加入一个告警池。在告警池中对该条告警的状态进行跟踪。包括三个方面的状态跟踪。 故障持续时间,24小时内触发次数,NOC工单状态,故障恢复与否。 故障持续时间:当前时间-故障开始时间。 24小时内触发次数:最近一天满足触发阈值的次数-1。 NOC工单状态:NOC工单的状态信息。 故障恢复与否:但手工对NOC工单关闭或者自动触发恢复时候,从故障池子清除条目。不在故障池子里则认为恢复。 告警池字段要求如下: 故障开始时间 故障持续时间 设备IP 端口名 端口流量大小/使用率 设备角色 业务线 机房 历史告警数(24H) NOC工单状态 NOC工单状态说明¶ NOC返回状态值 状态 说明 1 新工单 告警事件生成工单的初始状态 10 待处理 NOC人员接单后触发这个状态 20 处理中 NOC人员进行处理操作 21 已转派 NOC人员处理不了转派给网络运维 99 已取消 NOC人员进行取消操作 100 已完成 NOC人员进行跟进确认后触发该状态 101 自动恢复 这个是根据告警这边的恢复通知生成