Python数据挖掘020-磁盘容量预测

在系统运维中，经常会遇到某个具体组件发生故障，进而导致整个应用系统瘫痪的情况，所以要及时对这些具体组件进行跟踪和预测，判断出如果发生故障，要及时给予告警。

如下为某个应用系统的拓扑关系图。

image.png

本案例的目的是通过分析历史磁盘容量相关数据，采用时间序列分析法，预测应用系统服务器磁盘已使用空间的大小，根据用户需求设定不同的预警等级，将预测值和容量值进行比较，对其结果进行预警判断，提供定制化预警的提示。

分析步骤为：

从数据源中选择型抽取历史数据与每天定时抽取数据。
对抽取的数据进行周期性分析以及数据清洗，数据变换等操作后，形成建模数据。
采用时间序列分析法对建模数据进行模型的构建，利用模型预测服务器磁盘已使用情况。
应用模型预测服务器磁盘将要使用的情况，通过预测到的磁盘使用大小与磁盘容量大小按照定制化标准进行判断。

1. 数据预处理

1.1 平稳性分析

将原始的时序型数据绘图，可以观察到：磁盘的使用情况并不具有周期性，它们表现出缓慢型增长，呈现一定的趋势性，因此可以初步确认数据为非平稳性。

image.png

1.2 属性构造

原始的磁盘空间数据并不是直接可以使用的属性数据集，所以我们需要自己动手构建属性，比如

image.png

将上面两个样本的属性合并为一个样本的四个属性。代码为：

data=pd.read_excel(r"E:\PyProjects\DataSet\PyMining\Data\chapter11\demo\data\discdata.xls")
data = data[data['TARGET_ID'] == 184].copy() #只保留TARGET_ID为184的数据
# 183表示磁盘容量，而184表示磁盘已使用大小
data_group = data.groupby('COLLECTTIME') #以时间分组
def attr_trans(x): #定义属性变换函数
    result = pd.Series(index = ['SYS_NAME', 'CWXT_DB:184:C:\\', 'CWXT_DB:184:D:\\','COLLECTTIME'])
    result['SYS_NAME'] = x['SYS_NAME'].iloc[0]
    result['COLLECTTIME'] = x['COLLECTTIME'].iloc[0]
    result['CWXT_DB:184:C:\\'] = x['VALUE'].iloc[0]
    result['CWXT_DB:184:D:\\'] = x['VALUE'].iloc[1]
    return result

data_processed = data_group.apply(attr_trans) #逐组处理,每一天构成一组，从每一组中提取出value等
data_processed.head(10)

image.png

绘图查看下C盘和D判断已使用容量变化趋势图为：

image.png

2. 时序建模

建模流程图为：

image.png

首先对观测值序列进行平稳性检验，如果不平稳，则对其进行差分处理直到差分后的数据平稳，在平稳后，对其进行白噪声检验，如果没有通过白噪声检验，就进行模型识别，识别其模型属于AR，MA，ARMA中的哪一种模型。

2.1 平稳性检测

为了确定原始数据序列中没有随机趋势或确定趋势，需要对数据进行平稳性检验，否则将会产生伪回归现象。下面采用单位根检验（ADF）的方法对时序图进行平稳性检验。

data2=data_processed.copy()
#平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF
diff = 0
adf = ADF(data2['CWXT_DB:184:D:\\'])
while adf[1] > 0.05:
    diff = diff + 1
    adf = ADF(data2['CWXT_DB:184:D:\\'].diff(diff).dropna())

print('原始序列经过%s阶差分后归于平稳，p值为%s' %(diff, adf[1]))

结果为：原始序列经过1阶差分后归于平稳，p值为2.702061091530161e-06

2.2 白噪声检验

为了验证序列中有用的信息是否已被提取完毕，需要对序列进行白噪声检验，如果序列检验为白噪声序列，说明序列中有用的信息已经被提取完毕，剩下的全都是随机扰动，无法进行预测和使用。下面采用LB统计量的方法进行白噪声检验。

#白噪声检测
from statsmodels.stats.diagnostic import acorr_ljungbox
[[lb], [p]] = acorr_ljungbox(data2['CWXT_DB:184:D:\\'], lags = 1)
if p < 0.05:
    print('原始序列为非白噪声序列，对应的p值为：%s' %p)
else:
    print('原始该序列为白噪声序列，对应的p值为：%s' %p)

[[lb], [p]] = acorr_ljungbox(data2['CWXT_DB:184:D:\\'].diff().dropna(), lags = 1)
if p < 0.05:
    print('一阶差分序列为非白噪声序列，对应的p值为：%s' %p)
else:
    print('一阶差分该序列为白噪声序列，对应的p值为：%s' %p)

结果为：

image.png

2.3 模型识别

采用极大似然比方法进行模型的参数估计，估计各个参数的值然后针对各个不同模型，采用BIC信息准则对模型进行定阶，确定p,q参数，从而选择最优模型。

from statsmodels.tsa.arima_model import ARIMA

#定阶
pmax = int(len(xdata)/10) #一般阶数不超过length/10
qmax = int(len(xdata)/10) #一般阶数不超过length/10
bic_matrix = [] #bic矩阵
for p in range(pmax+1):
    tmp = []
    for q in range(qmax+1):
        try: #存在部分报错，所以用try来跳过报错。
            tmp.append(ARIMA(xdata, (p,1,q)).fit().bic)
        except:
            tmp.append(None)
    bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix) #从中可以找出最小值
p,q = bic_matrix.iloc[:,:-1].stack().argmin() #先用stack展平，然后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%s、%s' %(p,q))

结果是：BIC最小的p值和q值为：1、1

2.4 模型检验

模型确定后，需要检验其残差序列是否为白噪声，如果不是白噪声，说明残差中还存在有用的信息，需要修改模型或者进一步提取。

from statsmodels.tsa.arima_model import ARIMA #建立ARIMA(0,1,1)模型

arima = ARIMA(xdata, (0, 1, 1)).fit() #建立并训练模型
xdata_pred = arima.predict(typ = 'levels') #预测
pred_error = (xdata_pred - xdata).dropna() #计算残差
lagnum = 12 #残差延迟个数
from statsmodels.stats.diagnostic import acorr_ljungbox #白噪声检验
lb, p= acorr_ljungbox(pred_error, lags = lagnum)
h = (p < 0.05).sum() #p值小于0.05，认为是非白噪声。
if h > 0:
    print(u'模型ARIMA(0,1,1)不符合白噪声检验')
else:
    print(u'模型ARIMA(0,1,1)符合白噪声检验')

结果：模型ARIMA(0,1,1)不符合白噪声检验，说明残差序列中还有有用的信息？

2.5 误差计算

#计算误差
abs_ = (data[u'预测值'] - data[u'实际值']).abs()
mae_ = abs_.mean() # mae
rmse_ = ((abs_**2).mean())**0.5 # rmse
mape_ = (abs_/data[u'实际值']).mean() # mape

print(u'平均绝对误差为：%0.4f，\n均方根误差为：%0.4f，\n平均绝对百分误差为：%0.6f。' %(mae_, rmse_, mape_))

参考资料：

《Python数据分析和挖掘实战》张良均等

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,408评论 4赞 371
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,690评论 2赞 307
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,036评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,726评论 0赞 221
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,123评论 3赞 296
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,037评论 1赞 225
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,178评论 2赞 318
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,964评论 0赞 213
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,703评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,863评论 2赞 254
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,333评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,658评论 3赞 263
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,374评论 3赞 244
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,195评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,988评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,167评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,970评论 2赞 279

Python数据挖掘020-磁盘容量预测

1. 数据预处理

1.1 平稳性分析

1.2 属性构造

2. 时序建模

2.1 平稳性检测

2.2 白噪声检验

2.3 模型识别

2.4 模型检验

2.5 误差计算

推荐阅读更多精彩内容