AIOps实战案例:端口流量实时异动感知

  2020-04-24 05:01:09

        

群顶科技基于近年来在运维领域积累的大量经验,秉持数据驱动、业务导向原则,充分依托自身技术优势研发出致力于实现运维智能化的Minerva智能运维平台,本平台具有夯实的人工智能算法库、智能的全流程辅助建模、丰富的智能运维情景、良好的交互界面等诸多先进特性。


Minerva智能运维平台能够为运维开发人员提供全场景的算法支撑,提供智能基线、告警收敛、故障排查、根因定位等运维场景能力,下面以城域网智能监控案例带领大家逐步深入AIOps实战。


传统运维模式面临以下挑战:
城域网现有监控体系通过引入人工主动介入的方式,弥补现有监控系统采用固定阈值及专家规则的异常检测方法的漏洞,但仍存在以下问题: ①随着业务扩展,人工巡检成本随之增加,无法及时响应; ②人工巡检无法避免告警风暴问题; ③固定阈值及专家规则无法适应业务忙闲时的整体升降变化。


群顶科技智能运维平台介绍
基于群顶智能运维平台的城域网智能巡检则主要借助于深度学习算法精准的预测未来流量的变化趋势,实时发现端口流量中的异常,并对大量的异常情况进行有效的组织,再通知到运维人员,提高运维效率。具体的流程如下图所示,主要包含以下关键环节:


1.异常发现
实时获取端口流量数据,利用深度学习算法预测端口未来一段时间内的流量数据,再用统计算法检测当前值与预测值之间的差值是否异常,可以初步分析出当前端口流量所处的状态,主要可以为正常、陡升、陡降、端口down四种。


2.异常确认

对初步检测存在异常的流量,还需结合历史上相同时刻的数据分布情况进行同比,确认是否为真的异常,更符合业务逻辑。


3.告警确认
当端口处于频繁或者持续异常的状态时,表明端口可能出现了故障或者受到攻击,需要发送相关的告警信息给运维人员。


4.告警收敛
告警面临最大的问题就是告警数量太多,关键的告警常常会被淹没,所以需要对告警进行收敛。从时间窗口、业务规则、拓扑关系等维度对告警进行归并从而达到告警收敛的效果,缩小告警信息的规模,使得运维工作任务更加简洁清晰。


5.告警发送
将收敛后的告警信息发送至综合告警平台,告警内容主要包含告警端口设备信息、告警发生的时间、告警类型(陡升、陡降、端口down)等关键信息。


6.告警恢复
对于处于告警状态中的端口,如果没有新的异常产生,说明本次告警已经恢复,发送告警恢复信息至综合告警平台即可。


总结 

Minerva智能运维平台支持监控指标异动感知、容量预测、日志异常检测、告警收敛等多种智能运维情景,可为各种监控告警应用场景赋能,为企业提供降本增效“新动能”。

Copyright © 2007-2020.版权所有:南京群顶科技有限公司  苏ICP备14001286号