Transformer 中的缓存机制

我爱自然语言处理 at 
Transformer中的缓存机制的配图
作者:刘绍孔(NLP 算法工程师一枚) Encoder 部分相对简单,进行 self-attention 时只需要考虑 […]……