分享
深入浅出讲解【LSTM】(结构、原理)
输入“/”快速插入内容
深入浅出讲解【LSTM】(结构、原理)
飞书用户2749
7月23日修改
1.
LSTM的背景介绍
•
长短时记忆神经网络
(
Long Short-term Memory Networks
,简称
LSTM
)是特殊的RNN,尤其适合顺序序列数据的处理,LSTM 由
Hochreiter
&
Schmidhuber
(1997) 提出,并在近期被 Alex Graves 进行了改良和推广,LSTM明确旨在避免长期依赖性问题,成功地解决了原始循环神经网络的缺陷,成为当前最流行的RNN,在
语音识别
、
图片描述
、
自然语言处理
等许多领域中成功应用。
2.
LSTM的结构和原理
上图中使用的各个元素的图标的含义如下图所示:
LSTM实现了三个门计算,即
遗忘门
、
输入门
和
输出门
遗忘门
33%
输入门
33%
输出门
33%
3.
LSTM的训练过程
LSTM的参数训练算法,依然是反向传播算法。主要有如下三个步骤:
💾
•
第一步
:前向计算每个神经元的输出值。对于LSTM而言,依据前面介绍的算法,分别进行计算。
•
第二步
:确定优化目标函数。在训练早期,输出值和预期值会不一致,于是计算每个神经元的误差项值,构造出损失函数。
•
第三步
:根据损失函数的梯度指引,更新网络权值参数。与传统RNN类似,LSTM误差项的反向传播包括两个层面:一个是空间上层面的,将误差项向网络的上一层传播。另一个是时间层面上的,沿时间反向传播,即从当前t时刻开始,计算每个时刻的误差。
二、原理
1.
前向传播
1.1
输入门、遗忘门、输出门
遗忘门
33%
输入门
33%
输出门
33%
输入门
遗忘门
输出门
他们都在后面起到一个比例调节的作用
💾
其中、
,
为激活函数(sigmoid函数),故取值范围为:[0,1]
n为样本数,d为输入的特征数,h为隐藏大小。
1.2
候选记忆细胞