网游开服表_活动日历_玩家排行榜

数据分析和报警¶

数据预处理¶

对于10s采集的数据，因为部分设备的数据刷新时间大于10s，导致出现数据带宽使用率为0的情况。所以需要对这部分数据做聚合。原始数据作为参考。

计算公式为：

\[C_0 = {{C_{inc0} + C_{inc10} + ...+ C_{inc50}} \over 6}\]

\[B_0 = {{B_{used0} + B_{used10} + ...+ B_{used50}} \over 6}\]

即将第0s个至第50s采集的数据做均值后复制给0s的点。如17:51:00秒～17:51:50秒，6个点的数值平均后记到17:51:00秒上

策略配置¶

警告

对于端口在专线或者出口列表里的端口，不能进入此分析过程，他们单独应用于专线和出口。

策略名

报警策略名字

策略筛选条件

业务线

区域(地域)

机房

POD

业务属性（服务角色）

设备角色

设备IP、IP地址段

端口名

流量方向（进，出）

策略生效时间

支持到小时级别（0-23）

阈值类型

带宽使用率

流量大小（Mbps）

触发阈值

M分钟内使用率>=N达到S次（M,N,S为整数， N可以为流量大小或者流量使用率，根据阈值类型定义）。

恢复阈值

X分钟内使用率

策略生效状态

默认为策略生效状态，开启时源数据进入告警分析模块进行计算和比对，禁用时源数据不进行告警分析

策略告警等级

用于标识该策略的告警重要性程度，分5个等级：A1严重，A3主要，A5次要，A7一般，A9通知

告警组和通知方式

告警组，将不同人员分成不同的组，按组的方式发送告警；

通知方式：邮件、咚咚、微信、短信、电话；针对每个组可多选或者不选；

策略筛选条件的互斥关系¶

端口名不能单独选择，必须在单选设备IP情况下才能选择对应设备的端口。默认情况下都为多选

机房–POD–设备IP–端口名，存在父子关系，当父节点未被选中或者是多选状态下，子节点不能继续选择；当且仅当机房、POD同时处于单选状态下方可继续选择设备IP；

区域–机房，存在父子关系，当父节点未被选中或者是多选状态下，子节点不能继续选择；

设备IP地址仅仅可以在没有任何其他项勾选的情况下，才可以支持手工输入多个IP地址，或者多个地址段；

报警信息格式¶

报警信息分为两种，一种是触发阈值告警，一种是满足恢复阈值告警。我们把它称之为告警状态，分为告警恢复。因为告警通道的的不通，为了便于阅读。需要针对不同渠道的报警设置信息格式。

邮件：

-----------------------

标题：【告警通知时间/恢复通知时间】【告警状态（告警/恢复）】【告警等级】【告警策略名】【机房，POD，角色，设备IP，最近一次带宽使用率/带宽大小】

邮件内容：

故障开始时间, 故障持续时间，故障恢复时间（当且仅当告警状态为“恢复”时候才有该时间），

业务线，区域，机房，POD，业务属性，设备角色, 设备IP，设备名称

最近一次带宽使用率/带宽大小

短信，咚咚，电话，微信：

------------------------

【告警通知时间/恢复通知时间】【告警状态（告警/恢复）】【告警状态（告警/恢复）】【告警等级】【告警策略名】

【机房，POD，角色，设备IP，设备名称】【最近一次带宽使用率/带宽大小】

【故障开始时间, 故障持续时间，故障恢复时间（当且仅当告警状态为“恢复”时候才有该时间）】

报警的默认收敛规则¶

对重复的报警信息，实行收敛。

即一条策略被触发后，发送报警通知。同时更新一些计数器。

如果在未满足恢复阈值前提条件下，再次触发了阈值，则该次触发的报警被抑制，不对外发送报警信息。但会涉及一些计数器的更新。

当满足恢复阈值时候，发送告警恢复信息。同时更新一些计数器。

之后，如报警阈值被再次满足，则对外发送新的报警通知。

关于报警时间的规则¶

整个策略匹配过程及报警过程中，分别涉及多个时间，做如下说明。

1.故障开始时间：第一次触发阈值（满足告警阈值的第一个点的时间）

2.故障触发告警时间：满足告警频次达到告警条件

3.告警通知时间：告警平台对外发送告警通知的时间

4.聚合告警通知时间：故障触发告警时间满足告警聚合周期，多条告警聚合后的由告警平台发出的告警通知时间（仅仅在有聚合报警策略的情况下），有4没有3。

–以下仅针对有恢复的策略–

5.故障持续时间：未恢复的告警，从故障开始时间计算到当前时间点的时间段，在告警实时看板中展示；恢复的告警，故障持续时长=故障恢复时间-故障开

始时间；

6.故障恢复时间：第一个满足恢复条件的时间，通常只有在触发了第7个“故障触发恢复条件时间”时才会被记录

7.故障触发恢复条件时间：满足恢复阈值和频次达到恢复条件

8.恢复通知时间：告警平台发送恢复通知的时间

9.聚合恢复通知时间：故障触发恢复时间满足恢复聚合周期，告警平台发出的恢复通知时间（仅仅在有聚合报警策略的情况下），有9没有8

和NOC工单系统的联动¶

对于产生的故障告警，需要推送给NOC工单进入工单管理。需要根据工单返回结果对该告警做一个标记，表示目前关于此告警的工单的处理情况。

处理规则：

对于产生的告警（而非进行聚合后的告警，即聚合前的单条告警。），需要推送给NOC工单平台，根据noc平台的返回信息对该条告警设置一个工单状态标记。

当NOC工单对该单条告警改变了状态，需要同步的跟新报警系统中该条报警的工单状态标记；

当NOC工单标记为“已完成”，则触发告警恢复，忽略掉恢复阈值的检测，对外发送告警恢复信息；同时这条告警彻底清除，即便真实情况下告警并未恢复。

如果告警恢复阈值检测到满足，则触发告警恢复信息，同时通知NOC工单平台修改该工单状态为”已完成”, 关闭工单。

故障池（故障看板）的联动¶

但每条告警产生的时候，将该告警加入一个告警池。在告警池中对该条告警的状态进行跟踪。包括三个方面的状态跟踪。

故障持续时间，24小时内触发次数，NOC工单状态，故障恢复与否。

故障持续时间：当前时间-故障开始时间。

24小时内触发次数：最近一天满足触发阈值的次数-1。

NOC工单状态：NOC工单的状态信息。

故障恢复与否：但手工对NOC工单关闭或者自动触发恢复时候，从故障池子清除条目。不在故障池子里则认为恢复。

告警池字段要求如下：

故障开始时间

故障持续时间

设备IP

端口名

端口流量大小/使用率

设备角色

业务线

机房

历史告警数（24H）

NOC工单状态

NOC工单状态说明¶

NOC返回状态值

状态

说明

新工单

告警事件生成工单的初始状态

待处理

NOC人员接单后触发这个状态

处理中

NOC人员进行处理操作

已转派

NOC人员处理不了转派给网络运维

已取消

NOC人员进行取消操作

100

已完成

NOC人员进行跟进确认后触发该状态

101

自动恢复

这个是根据告警这边的恢复通知生成

设备端口流量¶