Pytorch学习之LSTM预测航班

LSTM长短时神经网络预测航班序列

本文通过LSTM长短时记忆神经网络,来预测航班信息。

航班数据集来自https://github.com/mwaskom/seaborn-data的flights.csv

本文讨论最多的问题:
1、本数据集分割存在数据泄漏。代码取data_X, data_Y = create_dataset(dataset),根据设定的lookback可以获得数据量为len(dataset)-lookback。然后代码中对data_X和data_Y取70%做训练;确实代码伪装的很好,在于数据集的分割问题;在测试集中,[t1,t2]=>t3中,t1和t2是被泄露的。因为现实情况的t1和t2也需要模型进行预测;所以绘图的效果会很好;

2、关于input_size和seq_len的问题,您说的是对的;本文的特征数为1,即当月的航班预订人数;seq_len为2,是用了2天的数据。即特征数(input_size)为1,seq_len为2。

3、模型预测效果存在一小段的偏移,这是由lookback决定的;这个问题也是时间序列问题的痛点;

库导入

导入pytorch库函数和散点图库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

导入数据并可视化

将航班数据导入,注意usecols=[1],选择第2列数据。

data_csv = pd.read_csv('./data.csv',usecols=[1])
plt.plot(data_csv)
初始数据

数据预处理

数据预处理,将数据中null或者缺项的列删除。对数据集进行归一化处理,首先设置数据集为浮点类型,然后取数据集最大和最小项差值为放缩尺度,对每一个数据集数值进行归一化。

# 数据预处理
data_csv = data_csv.dropna()  # 滤除缺失数据
dataset = data_csv.values   # 获得csv的值
dataset = dataset.astype('float32')
max_value = np.max(dataset)  # 获得最大值
min_value = np.min(dataset)  # 获得最小值
scalar = max_value - min_value  # 获得间隔数量
dataset = list(map(lambda x: x / scalar, dataset)) # 归一化

设置数据集

设置X,Y数据集。以look_back=2为准,取第一个和第二个为数组,形成data_X,取第三个作为预测值,形成data_Y,完成训练集的提取。

def create_dataset(dataset, look_back=2):
    dataX, dataY = [], []
    for i in range(len(dataset) - look_back):
        a = dataset[i:(i + look_back)]
        dataX.append(a)
        dataY.append(dataset[i + look_back])
    return np.array(dataX), np.array(dataY)

# 创建好输入输出
data_X, data_Y = create_dataset(dataset)

设置训练集和测试集

取数据集的前70%作为训练集,后30%做为测试集。

# 划分训练集和测试集,70% 作为训练集
train_size = int(len(data_X) * 0.7)
test_size = len(data_X) - train_size
train_X = data_X[:train_size]
train_Y = data_Y[:train_size]
test_X = data_X[train_size:]
test_Y = data_Y[train_size:]

设置LSTM模型数据类型形状

设置LSTM能识别的数据类型,形成tran_X的一维两个参数的数组,train_Y的一维一个参数的数组。并转化为tensor类型

import torch

train_X = train_X.reshape(-1, 1, 2)
train_Y = train_Y.reshape(-1, 1, 1)
test_X = test_X.reshape(-1, 1, 2)

train_x = torch.from_numpy(train_X)
train_y = torch.from_numpy(train_Y)
test_x = torch.from_numpy(test_X)

建立LSTM模型

建立LSTM模型,第一层为LSTM神经网络,第二层为一个全连接层。

from torch import nn
from torch.autograd import Variable

class lstm(nn.Module):
    def __init__(self,input_size=2,hidden_size=4,output_size=1,num_layer=2):
        super(lstm,self).__init__()
        self.layer1 = nn.LSTM(input_size,hidden_size,num_layer)
        self.layer2 = nn.Linear(hidden_size,output_size)
    
    def forward(self,x):
        x,_ = self.layer1(x)
        s,b,h = x.size()
        x = x.view(s*b,h)
        x = self.layer2(x)
        x = x.view(s,b,-1)
        return x

model = lstm(2, 4,1,2)

建立损失函数和优化器

设置交叉熵损失函数和自适应梯度下降算法

criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2)

模型训练

# 开始训练
for e in range(1000):
    var_x = Variable(train_x)
    var_y = Variable(train_y)
    # 前向传播
    out = model(var_x)
    loss = criterion(out, var_y)
    # 反向传播
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (e + 1) % 100 == 0: # 每 100 次输出结果
        print('Epoch: {}, Loss: {:.5f}'.format(e + 1, loss.data[0]))
训练结果
Epoch: 100, Loss: 0.00785
Epoch: 200, Loss: 0.00641
Epoch: 300, Loss: 0.00518
Epoch: 400, Loss: 0.00356
Epoch: 500, Loss: 0.00248
Epoch: 600, Loss: 0.00429
Epoch: 700, Loss: 0.00226
Epoch: 800, Loss: 0.00231
Epoch: 900, Loss: 0.00210
Epoch: 1000, Loss: 0.00213

模型预测

model = model.eval() # 转换成测试模式

data_X = data_X.reshape(-1, 1, 2)
data_X = torch.from_numpy(data_X)
var_data = Variable(data_X)
pred_test = model(var_data) # 测试集的预测结果
# 改变输出的格式
pred_test = pred_test.view(-1).data.numpy()

预测序列可视化

# 画出实际结果和预测的结果
plt.plot(pred_test, 'r', label='prediction')
plt.plot(dataset, 'b', label='real')
plt.legend(loc='best')
结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容

  • 一、实验目的 学习使用 weka 中的常用分类器,完成数据分类任务。 二、实验内容 了解 weka 中 explo...
    yigoh阅读 8,199评论 5 4
  • 语言的正则化LSTM用于情感分类 Linguistically Regularized LSTM for Sent...
    __子不语__阅读 1,904评论 0 2
  • 今天偶然听到“鬼”这个字眼,突发奇想便想写下这么篇东西,没什么目的,说纯粹的,不过是想说点什么,为消遣而已。 一写...
    小老鼠嘎阅读 509评论 8 6
  • 夜半,醒来 听到的只是寂静 会忘却寒暑 也忘却一切喧嚣 轻轻地吟唱 ...
    海月先生阅读 404评论 9 4
  • 今年夏天,我在长春学习有一幕让我难忘!一个年轻的妈妈带着4岁小女儿在公园游玩,妈妈坐在树底下看书,小女孩...
    善水100阅读 448评论 0 1