LSTM模型理解

文章共8,771字 · 阅读需要大约30分钟

一键AI生成摘要，助你高效阅读

问答

weixin_41168869

3174人浏览 · 2023-06-07 18:25:26

weixin_41168869 · 2023-06-07 18:25:26 发布

LSTM模型

LSTM模型SWOT分析

项目	要点	描述
优势	长期依赖建模能力强	LSTM模型能够很好地解决长期依赖问题，对于序列数据的建模效果优于其他模型。
	对时间序列数据适用	LSTM模型适用于处理时间序列数据，可以很好地捕捉时间序列数据的动态变化。
	具有较强的泛化能力	LSTM模型具有较强的泛化能力，能够很好地应对新样本的预测问题，不易过拟合。
劣势	训练难度较大	LSTM模型训练难度较大，需要花费较长的时间和资源进行调参和训练。
	容易受到梯度消失和梯度爆炸的影响	由于LSTM模型中使用了门控机制，容易出现梯度消失或梯度爆炸问题，需要采用一些技巧来解决。
机会	应用场景广泛	LSTM模型在自然语言处理、语音识别、图像描述等领域具有广泛的应用，未来发展潜力巨大。
	可以结合其他模型进行优化	LSTM模型可以与其他模型结合使用，例如CNN-LSTM、Attention-LSTM等，可以进一步提高模型的性能。
威胁	硬件资源要求高	LSTM模型训练和预测需要大量的计算资源，对硬件要求较高，用户需有足够的计算资源才能使用这种模型。
	模型结构较为复杂，不易理解和解释	LSTM模型结构较为复杂，不易理解和解释，对于非专业用户而言，使用和理解这种模型可能存在一定的难度。
	对数据质量要求较高，对异常值敏感	LSTM模型对数据质量要求较高，需要进行数据清洗和预处理，对于异常值敏感，需要采用一些方法来处理异常值和噪声数据。

LSTM 的原理

Long Short-Term Memory (LSTM) 是一种递归神经网络 (RNN)，特别适用于序列数据的建模。与传统的 RNN 相比，LSTM 的主要区别在于引入了三个门控来控制信息的流动和遗忘。LSTM 的公式表达如下：

输入门：
$i_t = \sigma(W_i[x_t, h_{t-1}] + b_i)$

遗忘门：
$f_t = \sigma(W_f[x_t, h_{t-1}] + b_f)$

输出门：
$o_t = \sigma(W_o[x_t, h_{t-1}] + b_o)$

候选细胞状态：
$c_t' = \tanh(W_c[x_t, h_{t-1}] + b_c)$

细胞状态：
$c_t = f_t * c_{t-1} + i_t * c_t'$

隐藏状态：
$h_t = o_t * \tanh(c_t)$

其中， $i_t$ 、 $f_t$ 、 $o_t$ 分别对应输入门、遗忘门和输出门的开关状态， $c_t'$ 是候选细胞状态， $c_t$ 是当前时刻的细胞状态， $h_t$ 是当前时刻的隐藏状态， $x_t$ 是输入序列在当前时刻的值， $W$ 和 $b$ 分别是权重和偏置， $\sigma$ 表示 sigmoid 函数， $\tanh$ 表示双曲正切函数。

pytorch LSTM 模型参数

参数	默认值	描述
input_size	无默认值	输入张量中的特征数或每个时间步的输入大小。
hidden_size	无默认值	隐藏状态的特征数。
num_layers	1	LSTM 层的数量。
bias	True	是否使用偏差。
batch_first	False	是否将批次大小作为第一维度。
dropout	0	在输出上应用的 dropout 比率，防止过度拟合。
bidirectional	False	是否为 LSTM 使用双向模式。
proj_size	None	如果不是 None，则添加一个线性投影层，将隐藏状态投影到该大小。
default_dtype	None	用于存储权重的默认数据类型（默认情况下使用 torch.get_default_dtype()）
backward	True	是否在反向传播时计算梯度。
dtype	None	用于存储权重的数据类型（默认情况下使用默认数据类型）。
device	None	用于存储权重的设备（默认情况下使用默认设备）。
requires_grad	True	是否在权重上计算梯度。
custom_weights	None	用于自定义权重的张量列表。

pytorch LSTM 模型属性和方法

1.模型属性

属性	类型	描述
input_size	int	LSTM 输入张量中的特征数或每个时间步的输入大小。
hidden_size	int	隐藏状态的特征数。
num_layers	int	LSTM 层的数量。
bias	bool	是否使用偏差。
batch_first	bool	是否将批次大小作为第一维度。
dropout	float	在输出上应用的 dropout 比率，防止过度拟合。
bidirectional	bool	是否为 LSTM 使用双向模式。
proj_size	Optional[int]	如果不是 None，则添加一个线性投影层，将隐藏状态投影到该大小。
training	bool	指示模型是否处于训练模式。
num_directions	int	LSTM 的方向数（取决于是否使用双向模式）。
batch_sizes	list[int]	每个时间步的批次大小。
sorted_indices	Tensor	在时间步上对批次进行排序的索引。
unsorted_indices	Tensor	恢复原始顺序的排序索引。
_flat_weights	List[Tensor]	扁平化的权重列表。

2.模型方法

方法	方法描述	参数描述	返回值
init()	构造 LSTM 对象。	input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0, bidirectional=False, proj_size=None	无
reset_parameters()	重新初始化所有权重。	无	无
forward()	执行 LSTM 的前向传递。	input, hx=None	output, (h_n, c_n)
flatten_parameters()	将权重展平为一个单一的连续张量。	无	无
unflatten_parameters()	将展平的权重转换回原始形状。	无	无
set_weight()	将指定位置的权重设置为给定的张量。	weight, name=None	无
get_weight()	返回指定位置的权重。	name	权重张量
parameters()	返回包含所有模型参数的迭代器。	无	迭代器
named_parameters()	返回包含所有模型参数和名称的迭代器。	无	迭代器
buffers()	返回包含所有模型缓冲区的迭代器。	无	迭代器
named_buffers()	返回包含所有模型缓冲区和名称的迭代器。	无	迭代器
train()	将模型设置为训练模式。	mode=True	无
eval()	将模型设置为评估模式。	无	无
to()	将模型转换为给定设备和数据类型。	device=None, dtype=None, non_blocking=False	无
cuda()	将模型转换为 CUDA 设备。	device=None	无
cpu()	将模型转换为 CPU 设备。	无	无
type()	返回模型的数据类型。	dtype=None	模型
apply()	对模型的每个子模块递归地应用给定的函数。	fn	模型
state_dict()	返回模型的状态字典。	destination=None, prefix=‘’	状态字典
load_state_dict()	加载模型的状态字典。	state_dict, strict=True	无
zero_grad()	将所有模型参数的梯度设置为零。	无	无
detach()	返回一个新的 Variable，将自身从计算图中分离。	无	Variable
register_forward_hook()	注册一个钩子函数，在模块前向传递时调用。	hook	无
register_backward_hook()	注册一个钩子函数，在模块反向传递时调用。	hook	无
extra_repr()	返回模块的额外信息。	无	str
repr()	返回模块的字符串表示形式。	无	str

损失函数

LSTM 模型的损失函数一般采用交叉熵损失函数。在分类问题中，常用 softmax 函数将隐藏状态 h_t 映射到每个类别的概率分布，计算交叉熵损失。

优化算法

优化算法可以采用基于梯度的优化算法，如随机梯度下降或者 Adam 等。

防止过拟合的措施

防止过拟合的措施可以采用很多方法，其中一些适用于 LSTM 模型。例如：

Dropout：在 LSTM 的输入、输出或者隐藏状态上应用 dropout，随机将一些元素置为 0，可以降低模型的复杂度，防止过拟合。
正则化：L1 和 L2 正则化等方法可以限制权重的大小，防止模型过拟合。
提前停止训练：设置一个验证集，监控模型在验证集上的性能，并在验证集上的性能不再提升时停止训练，可以避免模型对训练集过拟合。
数据增强：例如在文本分类问题中，可以增加噪声、随机删除单词或单词顺序等方式来增加训练数据的多样性，防止模型过拟合。

代码示例

下面展示一些 内联代码片。

import torch
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

data = pd.read_csv('data.csv', header=None)
data.columns = ['open', 'high', 'low', 'close', 'volume']
data.index = pd.to_datetime(data.index)

# 分割数据为训练集和测试集
train_data = data[:int(0.8*(len(data)))]
test_data = data[int(0.8*(len(data))):]

# 数据标准化
sc = MinMaxScaler(feature_range=(0, 1))
train_data_sc = sc.fit_transform(train_data)
test_data_sc = sc.transform(test_data)

# 创建数据集
def create_dataset(dataset, look_back):
    dataX, dataY = [], []
    for i in range(len(dataset)-look_back-1):
        a = dataset[i:(i+look_back), :]
        dataX.append(a)
        dataY.append(dataset[i + look_back, 3])
    return np.array(dataX), np.array(dataY)

look_back = 7
trainX, trainY = create_dataset(train_data_sc, look_back)
testX, testY = create_dataset(test_data_sc, look_back)
import torch.nn as nn

class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, num_layers=1):
        super(LSTM, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(device)
        out, (hidden, cell) = self.lstm(x, (h0, c0))
        out = self.fc(out[:, -1, :])
        return out

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = LSTM(input_size=5, hidden_size=64, output_size=1, num_layers=2).to(device)
import torch.optim as optim
from torch.autograd import Variable

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
num_epochs = 100
train_loss = []
for epoch in range(num_epochs):
    inputs = Variable(torch.from_numpy(trainX)).to(device)
    labels = Variable(torch.from_numpy(trainY)).to(device)

    # 前向传播
    outputs = model(inputs)

    # 计算损失
    loss = criterion(outputs, labels)
    train_loss.append(loss.item())

    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 5 == 0:
        print('Epoch [{}/{}], Train Loss: {:.4f}'.format(epoch+1, num_epochs, loss.item()))
# 测试模型
model.eval()
test_inputs = Variable(torch.from_numpy(testX)).to(device)
test_outputs = model(test_inputs).cpu().detach().numpy()
test_outputs = sc.inverse_transform(test_outputs)

# 评估模型
from sklearn.metrics import mean_squared_error, r2_score
rmse = np.sqrt(mean_squared_error(test_data[look_back+2:], test_outputs))
r2 = r2_score(test_data[look_back+2:], test_outputs)
print('RMSE: {:.4f}, R2 Score: {:.4f}'.format(rmse, r2))
# 测试模型
model.eval()
test_inputs = Variable(torch.from_numpy(testX)).to(device)
test_outputs = model(test_inputs).cpu().detach().numpy()
test_outputs = sc.inverse_transform(test_outputs)

# 评估模型
from sklearn.metrics import mean_squared_error, r2_score
rmse = np.sqrt(mean_squared_error(test_data[look_back+2:], test_outputs))
r2 = r2_score(test_data[look_back+2:], test_outputs)
print('RMSE: {:.4f}, R2 Score: {:.4f}'.format(rmse, r2))
# 保存模型
torch.save(model.state_dict(), 'lstm_model.pth')

# 加载模型
model.load_state_dict(torch.load('lstm_model.pth'))
model.eval()