AIOps实战案例:群顶磁盘智能管理系统

  2020-06-30 17:43:11

        

随着信息化的高速发展以及云计算、云存储、物联网等新兴技术的发展,海量数据存储技术发展越来越快,数据中心日益庞大。磁盘作为数据的最终载体,是数据中心最重要的网络设备之一,同时也是最常发生故障的设备。


传统磁盘管理面临以下挑战:

① 商用机械磁盘平均寿命3—5年,并且可能面临批次缺陷带来的潜在风险;
② 数据保护机制旨在降低故障发生时数据丢失的风险,是被动式故障处理方式;
③ 性能和可能性无法完美兼得;
④ 磁盘运行异常导致的数据丢失几率远高于磁盘损坏;



群顶磁盘智能管理软件 Trendy Smart View for Disk,简称TSVD )面向数据中心分布式存储和集群文件系统等海量磁盘场景,利用机器学习算法,采集分析不同厂商的磁盘S.M.A.R.T信息,提供磁盘状态监测、健康分级和故障预测能力,辅助决策维护时间窗口。通过主动探测、发现和处理潜在故障,彻底消除因磁盘故障导致的业务中断和数据丢失事故,减轻运维压力和责任风险。

 

TSVD核心能力

① 磁盘当前健康状况评估,区分健康、报告、警戒、衰退、灾难5个等级,分析可能的原因并给出对应的处理建议;
② 对于健康状况较恶劣的磁盘预估其剩余寿命,结合业务负载时序特征给出建议的更换时窗口;
③ 磁盘故障归因分析,深层挖掘磁盘故障原因,协助规避同类故障发生,减少运维人员排障及恢复时间;


TSVD工作原理



 

模型训练

选用群顶收集到的不同厂商磁盘数据集作为训练数据,对磁盘SMART指标数据进行突变点检测,筛选出在在好坏盘上突变点出现频率差异非常大的SMART特征,对筛选的SMART指标抽取指定窗口的数据。

使用卷积深度神经网络自编码模型进行模型训练,将训练好的深度模型取出编码器模型,并将上述数据输入到编码器进行深度特征编码抽取。

① 磁盘健康状态评估模型:在深度特征编码抽取出来的数据上使用梯度提升树及随机森林等算法训练分类模型,针对每个分类模型使用交叉验证的方式验证模型的稳定性与准确性,根据交叉验证结果决定是否采用该模型;最后对决定采用的多个模型进行融合得到优化的磁盘健康状态评估模型。

② 磁盘剩余寿命预测模型:在深度特征编码抽取出来的数据上使用线性回归等回归模型,针对每个回归模型使用交叉验证的方式验证模型的稳定性与准确性,根据交叉验证结果决定是否采用该模型;最后对决定采用的多个模型进行融合得到优化的磁盘剩余寿命预测模型。


数据采集

对于接入系统的设备,采集程序每隔1小时采集一次SMART指标,按天将采集到的SMART指标分别取平均值作为每个SMART指标的按天的取值。由于不同厂商SMART指标会存在差异,所以需要使用迁移学习将被系统纳管的磁盘数据映射到训练数据集分布上,便于稳定磁盘健康状态评估及剩余寿命预测模型的精度。


磁盘健康状态评估与剩余寿命预测

① 磁盘健康状态评估:将采集到的磁盘SMART指标数据输入到磁盘健康评估模型,生成磁盘健康评分,综合专家规则及模型评估结果将磁盘健康状态分在为健康、报告、警戒、衰退、灾难5个等级。

② 磁盘剩余寿命预测:健康状态处于健康级、报告级或者警戒级的磁盘,剩余寿命往往超过360天,而灾难级别磁盘大概率无法获得SMART数据,无需对其剩余寿命进行预测。只需对健康状态处于衰退级的磁盘剩余寿命进行预测;将处于衰退级磁盘SMART指标数据输入到故障预测模型,即可预测得到磁盘的剩余寿命。

 

TSVD实施效果

目前,群顶磁盘智能管理软件已在多家运营商的数据中心进行部署,监控近百台分布式存储设备,共计5792块磁盘,其中HDD-SATA4675块,HDD-SAS721块,SSD396块,系统上线后对这些磁盘进行持续监测,对磁盘健康状态进行评估,并定期发送磁盘健康评估报告给运营商。系统上线以来,已检测出多块磁盘处于衰退级或警戒级,评估结果得到了运营商的肯定。运维人员根据检测结果及时对低健康等级磁盘进行更换,有效避免了数据丢失,保障业务稳定。

Copyright © 2007-2020.版权所有:南京群顶科技有限公司  苏ICP备14001286号