- 流程如下,首先有一个输入序列,对于时刻t,我们用t-1时刻的输入x
t-1和潜变量ht-1来计算新的潜变量ht。同时,对于t时刻的输出ot,则直接使用ht来计算得到。注意,计算第一个潜变量只需要输入即可(因为前面并不存在以往的潜变量)。 - 值得注意的是,RNN本质也是一种MLP,尤其是将h
t-1这一项去掉时就完全退化成了MLP。RNN的核心其实也就是ht-1这一项,它使得模型可以和前面的信息联系起来,将时序信息储存起来,可以把RNN理解为是包含时序信息的MLP。
- 为了衡量一个语言模型的好坏,例如分类模型,可以使用平均交叉熵来衡量,就是将预测概率的负对数值求和之后再去平均,即常用的交叉熵损失。但是由于某些历史原因,NLP往往不是用这种方式,而是在这种方式的基础上最后再取指数,即exp,这样得到的结果如果是1,说明完美;如果是无穷大,说明结果很差。