首页
产品与服务
产品中心
云管&云平台
云管理平台
OpenStack云平台
桌面云管理系统
容器服务平台
企业云盘与云笔记
存储&备份
分布式存储
TDS备份与恢复软件
TDS存储一体机
网络&安全
Diameter信令控制软件
虚拟安全网元
人工智能
AI Paas平台
磁盘智能管理软件
软件定制
系统集成
运维支持
大数据
解决方案
案例
支持与下载
选购
合作与培训
合作
培训
关于我们
企业简介
荣誉资质
新闻资讯
职业机会
联系我们
登录
|
首页
产品与服务
产品中心
云管&云平台
云管理平台
OpenStack云平台
桌面云管理系统
容器服务平台
企业云盘与云笔记
存储&备份
分布式存储
TDS备份与恢复软件
TDS存储一体机
网络&安全
Diameter信令控制软件
虚拟安全网元
人工智能
AI Paas平台
磁盘智能管理软件
软件定制
系统集成
运维支持
大数据
解决方案
案例
支持与下载
选购
合作与培训
合作
培训
关于我们
企业简介
荣誉资质
新闻资讯
职业机会
联系我们
登录
|
首页
新闻列表
新闻详情
AIOps实战案例:群顶磁盘智能管理系统
2020-06-30 17:43:11
随着信息化的高速发展以及云计算、云存储、物联网等新兴技术的发展,海量数据存储技术发展越来越快,数据中心日益庞大。磁盘作为数据的最终载体,是数据中心最重要的网络设备之一,同时也是最常发生故障的设备。
传统磁盘管理面临以下挑战:
① 商用机械磁盘平均寿命3—5年,并且可能面临批次缺陷带来的潜在风险;
② 数据保护机制旨在降低故障发生时数据丢失的风险,是被动式故障处理方式;
③ 性能和可能性无法完美兼得;
④ 磁盘运行异常导致的数据丢失几率远高于磁盘损坏;
群顶磁盘智能管理软件
(
Trendy Smart View for Disk
,简称
TSVD
)面向数据中心分布式存储和集群文件系统等海量磁盘场景,利用机器学习算法,采集分析不同厂商的磁盘
S.M.A.R.T
信息,提供磁盘状态监测、健康
分级
和故障预测能力,辅助决策维护时间窗口。通过主动探测、发现和处理潜在故障,彻底消除因磁盘故障导致的业务中断和数据丢失事故,减轻运维压力和责任风险。
TSVD
核心能力
①
磁盘当前健康状况评估,区分健康、报告、警戒、衰退、灾难
5
个等级,分析可能的原因并给出对应的处理建议;
② 对于健康状况较恶劣的磁盘预估其剩余寿命,结合业务负载时序特征给出建议的更换时窗口;
③ 磁盘故障归因分析,深层挖掘磁盘故障原因,协助规避同类故障发生,减少运维人员排障及恢复时间;
TSVD
工作原理
模型训练
选用群顶收集到的不同厂商磁盘
数据集
作为训练数据,对磁盘
SMART
指标数据进行突变点检测,筛选出在在好坏盘上突变点出现频率差异非常大的
SMART
特征,对筛选的
SMART
指标抽取指定窗口的数据。
使用卷积深度神经网络
自编码模型进行模型训练,将训练好的深度模型取出编码器模型,并将上述数据输入到编码器进行深度特征编码抽取。
①
磁盘健康状态评估模型:在深度特征编码抽取出来的数据上使用梯度提升树及随机森林等算法训练分类模型,针对每个分类模型使用交叉验证的方式验证模型的稳定性与准确性,根据交叉验证结果决定是否采用该模型;最后对决定采用的多个模型进行融合得到优化的磁盘健康状态评估模型。
②
磁盘剩余寿命预测模型:在深度特征编码抽取出来的数据上使用线性回归等回归模型,针对每个回归模型使用交叉验证的方式验证模型的稳定性与准确性,根据交叉验证结果决定是否采用该模型;最后对决定采用的多个模型进行融合得到优化的磁盘剩余寿命预测模型。
数据
采集
对于接入系统的设备,采集程序每隔
1
小时采集一次
SMART
指标,按天将采集到的
SMART
指标分别取平均值作为每个
SMART
指标的按天的取值。由于不同厂商
SMART
指标
会存在差异,所以需要使用迁移学习将被系统纳管的磁盘数据映射到训练
数据集
分布上,便于稳定磁盘健康状态评估及剩余寿命预测模型的精度。
磁盘健康状态评估与剩余寿命预测
①
磁盘健康状态评估:将采集到的磁盘
SMART
指标数据输入到磁盘健康评估模型,生成磁盘健康评分,综合专家规则及模型评估结果将磁盘健康状态分在为健康、报告、警戒、衰退、灾难
5
个等级。
②
磁盘剩余寿命预测:健康状态处于健康级、报告级或者警戒级的磁盘,剩余寿命往往超过
360
天,而灾难级别磁盘大概率无法获得
SMART
数据,无需对其剩余寿命进行预测。只需对健康状态处于衰退级的磁盘剩余寿命进行预测;将处于衰退级磁盘
SMART
指标数据输入到
故障
预测
模型
,即可预测得到磁盘的剩余寿命。
TSVD
实施效果
目前,群顶磁盘智能管理软件已在多家运营商的数据中心进行部署,监控近百台分布式存储设备,共计
5792
块磁盘,其中
HDD-SATA
盘
4675
块,
HDD-SAS
盘
721
块,
SSD
盘
396
块,系统上线后对这些磁
盘进行持续监测
,对磁盘健康状态进行评估,并定期发送磁盘健康评估报告给运营商。系统上线以来,已检测出多块磁盘处于衰退级或警戒级,评估结果得到了运营商的肯定。运维人员根据检测结果及时对低健康等级磁盘进行更换,有效避免了数据丢失,保障业务稳定。
Copyright © 2007-2020.版权所有:南京群顶科技有限公司
苏ICP备14001286号