Transformer 中的缓存机制

Transformer中的缓存机制的配图
作者:刘绍孔(NLP 算法工程师一枚) Encoder 部分相对简单,进行 self-attention 时只需要考虑 […]……