IP网络智能化预检预修与告警关联方案

    

    

    【摘? 要】IP网络正在快速发展,网络规模也日益增大,网络复杂性也随之提高,承载的业务种类也越来越多,导致发生故障的概率也越来越高。如果网络发生故障或性能劣化,会导致网络质量的下降,影响客户感知,产生无可估量的影响。鉴于此情况,对网络进行有效高质的管控需求越来越迫切。论文主要针对2019年河南电信在基于资源拓扑的告警关联优化及IP网络自动巡检、自动派发预检预修工单方案进行介绍。

    【Abstract】With the rapid development of IP network, the network scale is expanding, the complexity is increasing, and the carrying business is becoming more and more diverse, so the probability of failure is also increasing. If the network fails or the running state is not good, it will lead to the decline of operation efficiency and even cause irreparable huge losses. In view of this situation, the demand for effective and high-quality control of the network is becoming more and more urgent. This paper mainly introduces the scheme of alarm correlation optimization based on resource topology and IP network automatic inspection, automatic distribution of pre-inspection and pre-repair work order in 2019.

    【关键词】告警关联;IP网络;预检预修;资源拓扑

    【Keywords】alarm association, IP network; pre-check and pre-repair; resource topology

    【中图分类号】TP399? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文献标志码】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章编号】1673-1069(2020)08-0194-03

    1 IP网络管理重要性概述

    随着IP网络的迅猛发展,信息交流、资源共享变得越来越快捷、方便,但同时,伴随着用户对网络依赖程度的日益加深,网络负荷也日益繁重,伴随着规模的不断扩张,网络复杂程度越来越高, 承载的业务种类纷繁复杂,网络发生故障的概率也在增高,如果网络发生故障或性能劣化,会导致网络质量的下降,影响客户使用感知,甚至造成无法挽回的损失。因此,伴随网络的快速发展,IP网络管理的重要性也日益凸显,主要体现在以下几个方面:

    第一,规模日益庞大的网络管理需求。随着IP网络的增大,复杂性随之增加,一张网络由若干子网组成,其中包含不同厂商、不同型号的网络设备和通信设备,也涉及多样的网络管理平台,如此庞大的网络,必须有更强大的网络管理系统进行管理。

    第二,网络日常维护的需求。IP网络具有简单、开放的协议,但是无法对系统的安全性、可靠性提供保障,随着对网络承载业务和网络性能要求的提高,需要对IP网络进行监控维护,保障设备、线路、业务出问题时能够及时应对和解决。

    第三,网络质量保障的需求。随着电信运营商市场竞争的加剧,网络服务的质量是企业长久生存的基石,如何保障电信IP网络平稳、畅通、安全的运行,打造高质量的网络,是电信IP网络面对的具有挑战性的课题。

    综上所述,无论从客户角度还是通信运营商的角度,对于IP网络的有效管理都有迫切的需求,靠传统的人工方法管理IP网络无法满足要求,只有通过IP管理系统来进行自动的监测、控制、维护和管理,才是正确的选择。

    2 告警逻辑与关联

    IP网络为层次化组网,结构复杂,网络中的各层级网元在物理连接和业务逻辑上都存在一定的关联性,网络中单点网元或者线路故障会导致相关联的网元“一点告警、多点传播”效应,这些告警在时间、名称、资源逻辑上都存在着很强的关联,如一些衍生告警(物理端口down告警,引发各类协议down告警),这类告警在出现端口DOWN告警时,抑制不再进行告警的派发。在筛选的过程中,要兼顾考虑重复告警可能是不同时间段的不同故障引起的,不可盲目将重复告警删除,而应该结合实际故障情况进行甄别。因此,将此类告警进行关联归類合并处理,将大大提高几种监控效能。

    网络设备内的告警逻辑相关性分类如下:

    ①压缩处理,将多个具有同属性(同网元、同光路等)且同时发生的告警压缩成一条告警;

    ②过滤机制,剔除不符合属性相关性条件的告警;

    ③告警抑制屏蔽,当级别的告警产生时,抑制低级别的告警;

    ④时序关系,不同的告警按照一定的时间顺序生成。

    网络设备间的告警关联分类方式有:衍射关联,基于告警间的产生关系化愤怒为根告警和衍生告警;拓扑关联,基于网元拓扑连接关系,构成本端与对端告警;时间关联,同一故障点产生告警,具有同时间点触发特性;因果关联,由于A告警发生导致B告警触发,如光缆故障导致数据设备端口DOWN。

    告警关联划分主要基于网络相关属性特征,如拓扑结构、告警类型、告警级别、发生时间、告警分类归属,通过告警关联对告警进行分析,进而对网络运行状态进行评估和预测。

    3 省内优化告警合并关联规则部署方案

    2020年主要优化了基于拓扑结构的告警优化,在与传输进行跨专业告警关联的基础上又重新优化了IP网络专业内告警关联规则。

    调整前规则:

    ①BAS端口DOWN告警统一派发BAS端口DOWN故障单,派单网络层级为汇聚层,下联OLT端口告警未压降至OLT设备电路中断告警。②IPRAN B设备端口DOWN告警出现后,统一派发IPRAN B设备端口DOWN故障单,下联A设备端口告警未压降至A设备电路中断告警。

    调整后的关联规则:

    ①如果CR或BAS的下联口均发生“端口DOWN”告警,间隔2分钟以内,综告系统查询资源系统BAS与CR间的中继电路资料,如果判断为同一条中继电路,则合成“电路中断”。②BAS端口DOWN告警出现后,综告系统查询资源系统,如为BAS下联OLT端口,则与OLT上联口收无光进行合并,合并后派发为电路中断告警工单,考虑到此段链路中断原因OLT导致的可能性较大,派单网络层级为接入网。③IPRAN B設备端口DOWN告警出现后,综告系统查询资源系统,如为B设备下联A设备端口,则与A设备上联口端口DOWN合并,合并派发A设备上联电路中断告警工单, 派单网络层级为接入网。④综告系统查询本地资源系统中IPRAN设备A与A之间的电路资源数据,如果两个互联的A设备同时发生端口DOWN告警(即中继电路名称相同),则合成“A设备中继电路断”告警。

    4 智能化预检预修部署方案

    城域网/IPRAN维护模式是故障处理与作业计划执行相结合,作业计划的实现方式是在城域网网管上的巡检模块人工进行巡检,执行完成后在省内服保系统中人工执行作业计划项,这种方式整个过程都为人工操作,执行效率、发现问题及处理问题的及时率都难以得到有效保障。

    由于城域网/IPRAN网管上的巡检模块巡检及服保作业计划项目的执行均为人工执行,在日常维护中发现巡检的执行及时性、隐患时及时有效的处理都没有监督机制,存在如下问题:

    ①对于暂时不影响业务的隐患处理不及时的情况,例如端口的CRC误码,虽然电路暂时未中断,在实际维护中发现,对于敏感业务例如ITV已经产生了影响,影响了用户的观看体验。

    ②巡检模块的巡检项目存在不合理的情况。

    ③巡检项目的检测机制需要优化。

    对于上述问题,针对性的进行了解决:①将巡检模块巡检出的问题自动故障工单的派单,派单到相关设备包机人,并在服保系统中设置了界面及短信提醒,在工单到达、即将超时等情况进行提醒,确保包机人及时知晓问题并及时处理。②对巡检模块的巡检项目重新进行了梳理,根据“需要包机人关注及及时处理”的原则,根据设备类型匹配关注的巡检项,优化了巡检模块的巡检项目,包括了设备硬件的巡检项,如温度、板卡、风扇状态等;设备性能类巡检,如CPU利用率、内存利用率、传输误码、端口光功率等;针对设备类型不同,也会根据业务及配置特点设定巡检项,如城域网MSE设备包括license利用率、ippool地址池利用率;CR设备巡检项包括netstream检测等。③网管中一般巡检项改为每日设备闲时凌晨4:30巡检一次,对于设备CPU、内存的巡检放在每日业务忙时20:00点进行巡检。④巡检项派单的优化,设置巡检派发的故障单处理时限为48小时,派发的巡检类故障单如果故障处理完成,第二天巡检时会检测到故障恢复,然后对工单进行恢复,处理人可以进行回单。⑤对巡检项目中的检测机制进行了优化,之前的传输误码检测检测的为设备的所有端口,经过调研发现各地市上了县乡波分后,大量汇聚交换机退网,县乡的OLT设备直连BAS,但是传输质量无法得到保障,大量的端口的光功率短时间内无法提升,也会导致少量传输误码,但是对业务无影响。鉴于省内的情况,将传输误码的检测修改为检测CR的全部端口,BAS的上联端口。下联口的误码作为隐患进行上报进行处理。

    5 成效

    告警管理的优化不仅需要通过告警关联实现,也需要细化告警派单规则以及故障管控。告警源于故障,只有具备对故障进行精准定位的能力,才能避免“告警风暴”的产生干扰故障处理。设备告警管理就像修枝剪叶,全网告警关联等同于培育森林,告警管理方式的优化以及配合其他方面的同步参与,必将为打造稳健的通信网络保驾护航。我们通过告警优化合并,工单量大量压降,大大降低了省内的故障量,减少了重复派单的数量,也减少了一线维护人员处理故障的压力,对比如图3。

    自动巡检系统的应用取代了大量的人工巡查手段,将现有可以通过远程登录到网络设备通过命令来进行的巡检工作,使用预先编写的脚本进行取代,巡检项目的项目类型及检测机制的优化把地市需要关注、能够处理、需要及时处理的故障展现,提升城域网巡检面板的精简和准确度。巡检项目的及城域网设备的预检预修与故障单联动,能够及时发现隐患,并在发现后有效推动隐患的处理。从根本上降低了设备故障的发生率,维护了设备健康运行,提升了用户感知。

    【参考文献】

    【1】王洋,李国才,徐亚昆.信息通信网络告警分类、关联性与管理方法研究[J].电信科学,2013(08):132-135.

    【2】廖霄.基于IP网管的自动巡检系统的设计与实现[D].北京:北京邮电大学,2007.

    【作者简介】颜玲玲(1989-),女,四川南充人,中级工程师,从事IP数据承载网研究。