Understanding LSTM(理解长短期记忆网络)

limboy's HQ at 
这篇文章用形象的图片结合实例阐述了 LSTM(长短期记忆网络) 出现的背景以及它的工作方式。Distill 和 Anthropic 的 co founder。LSTM 可以解决 RNN(循环神经网络)无法「记住」距离当前处理 Seq 较远的内容这个问题。比如「我出生在中国,......,我能熟练讲__」,如果让它填空的话,没有 LSTM,RNN 可能无法知道应该填什么,因为「中国」这个 Context 距离比较远,在处理「我能熟练讲」这个序列时,有可能已经丢失了这个重要的 Context。有了 LSTM 就可以解决这个问题。LSTM 也有跟 RNN 类似的链状结构,也会接收前一个 layer ……