机器学习入门(12)——循环神经网络RNN介绍

本文基于北京大学软件与微电子学院曹健老师的Tensorflow笔记整理——b站视频教程

卷积神经网络与循环神经网络简单对比

CNN: 借助卷积核（kernel）提取特征后，送入后续网络(如全连接网络 Dense)进行分类、目标检测等操作。CNN 借助卷积核从空间维度提取信息，卷积核参数空间共享。

RNN: 借助循环核（cell）提取特征后，送入后续网络(如全连接网络 Dense)进行预测等操作。RNN 借助循环核从时间维度提取信息，循环核参数时间共享。

循环核

循环核的概念

循环核具有记忆力，通过不同时刻的参数共享，实现了对时间序列的信息提取。每个循环核有多个记忆体，对应图中的多个小圆柱。记忆体内存储着每个时刻的状态信息ℎ_𝑡，这里h _𝑡 = tanh(𝑥_𝑡𝑤 _𝑥ℎ +ℎ_t−1w _ℎℎ + 𝑏_ℎ)。其中，𝑤 _𝑥ℎ 、w _ℎℎ为权重矩阵，𝑏_ℎ为偏置，𝑥 _𝑡为当前时刻的输入特征，ℎ _𝑡−1 为记忆体上一时刻存储的状态信息，tanh 为激活函数。

当前时刻循环核的输出特征𝑦 _𝑡 = softmax(ℎ_𝑡 𝑤 _ℎ𝑦+ 𝑏_𝑦)，其中𝑤_ℎ𝑦 为权重矩阵、𝑏_𝑦为偏置、softmax 为激活函数，其实就相当于一层全连接层。我们可以设定记忆体的个数从而改变记忆容量，当记忆体个数被指定、输入𝑥 _𝑡 输出𝑦 _𝑡 维度被指定，周围这些待训练参数的维度也就被限定了。在前向传播时，记忆体内存储的状态信息h _𝑡在每个时刻都被刷新，而三个参数矩阵𝑤 _𝑥ℎ 、w _ℎℎ 、𝑤 _ℎ𝑦 和两个偏置项𝑏_ℎ、𝑏_𝑦自始至终都固定不变。反向传播时。三个参数矩阵和两个偏置项由梯度下降法更新。