本文分享自华为云社区《【MindSpore易点通】深度学习系列-循环神经网络上篇》,作者:Skytier

循环神经网络(RNN)可是在语音辨认、自然语言处理等其他领域中引起了革新!

应用场景

循环神经网络(RNN)其实便是序列模型,咱们先来看看其应用场景。

一文了解循环神经网络

在语音辨认时,给定了一个输入音频片段X ,并要求输出对应的文字记载Y 。这儿的输入和输出数据都是序列模型,输入X是一个按时播放的音频片段,输出Y是一系列文字。

音乐生成问题也是一样,输出数据Y是序列,而输入数据X可所以空集,也可所以个单一的整数(代表音符)。

而系列模型在DNA序列剖析中也十分有用,DNA能够用A、C、G、T四个字母来标明。所以给定一段DNA序列,你能够标记出哪部分是匹配某种蛋白质的吗?

以上所有类似问题都能够被称作运用标签数据(X,Y)作为训练集的监督学习,输入数据X或者输出数据Y是序列,即使两者都是序列也有数据长度不同的问题。

模型构建

比方树立一个序列模型,它的输入语句是这样的:“Sam Li and Tom date on Tuesday.”。然后模型是能够自动辨认句中人名方位的命名实体辨认模型,能够用来查找不同类型的文本中的人名、公司名、时间、地址、国家名和钱银名等等。

假定输入数据x,序列模型的输出y,使得输入的每个单词都对应一个输出值,一起y还需要标明输入的单词是否是人名的一部分。

首要输入语句是7个单词组成的时序序列,所以最终会有7个特搜集x:x<1>,x<2>,…,x<7>,一起能够索引其序列中的方位。Tx标明输出序列的长度,这儿Tx=7。

同理,输出数据也是一样,分别对应y<1>,y<2>,…,y<7>,Ty标明输出序列的长度。

因而总结来说,训练样本i的序列中第t个元素用x(i)标明, 代表第i个训练样本的输入序列长度,y(i)标明第i个训练样本中第t个元素,便是第i个训练样本的输出序列的长度。

那么问题来了,首要咱们需要准备一个比较大的词典库,可能该库里的第一个单词是a,and出现在第367个方位上,Sam是在7459这个方位,Tom则在8674。

一文了解循环神经网络

那么咱们就能够在这个词典库的基础上遍历训练集。

一文了解循环神经网络

那么也便是说,Sam由x<1>标明,其是一个第7459行是1,其余值都是0的向量;Li由x<2>标明,其是一个第2420行是1,其余值都是0的向量。

通常咱们称这种x指代语句里的恣意词为one-hot向量,只有一个值是1,其余值都是0,所以整句话中咱们会有7个one-hot向量,用序列模型在X和Y方针输出之间学习树立一个映射关系。

PS:假如遇到了一个在你词表中的单词,能够创建一个Unknow Word的假造单词,用作为标记。

模型解说

通常情况下,咱们会首要选取规范的神经网络,输入7个one-hot向量,通过一些躲藏层,最终会输出7个值为0或1的项,标明每个输入单词是否是人名的一部分。

一文了解循环神经网络

但最终咱们总会遇到这样的问题:

1.输入和输出数据的长度并不完全一致,即使采用填充(pad)或零填充(zero pad)使每个输入语句都到达最大长度,但最终的表达式会很奇怪。

2.简单的神经网络并不会同享从文本的不同方位上学到的特征。由于咱们期望,假如首次学习的时候咱们已经知道了Tom是人名,那么当Tom出现在其他方位时,其并不能够自动辨认,因而也不能够减少模型中参数的数量。

那么循环神经网络为啥会比一般的神经网络愈加拔尖呢?

一文了解循环神经网络

以从左到右的次序读这个语句,第一个单词便是x<1>,将其输入一个神经网络层,一起测验猜测输出,判断这是否为人名;下面精彩的部分来啦,循环神经网络中当它读到句中的第二个单词时,假定是x<2>,它不是仅用x<2>就猜测出

一文了解循环神经网络
,还会输入一些来自时间步1的信息,那么时间步1的激活值就会传递到时间步2。在下一个时间步,循环神经网络输入了x<3>,测验猜测输出了
一文了解循环神经网络
,…,一直到最终一个时间步,输入x,然后输出
一文了解循环神经网络
。在每一个时间步中,循环神经网络会传递一个激活值到下一个时间步中用于核算,一起还需要运用零向量作为零时间的伪激活值输入神经网络

另外循环神经网络是从左向右扫描数据,一起每个时间步的参数也是同享的,用Wax来标明从x<1>到躲藏层的连接的一系列参数,每个时间步运用的都是相同的Wax参数,而激活值是由参数Waa决议的,输出成果由Way决议。

一文了解循环神经网络

一文了解循环神经网络

先输入零向量a<0>,接着进行前向传达进程,核算激活值a<1>,然后再核算y<1>。

更遍及来说,在t时间:

一文了解循环神经网络

为了愈加简化一点,定义Wa: ,假定a是100维的,x是10,000维的,那么Waa是(100,100)维的矩阵,Wax是(100,10000)维,Wa为(100,10100)。

同样,假定

一文了解循环神经网络
,Wy标明它是核算y类型的量的权重矩阵,而Wa和ba则标明这些参数是用来核算激活值的。

RNN前向传达示意图:

一文了解循环神经网络

点击重视,第一时间了解华为云新鲜技能~