BlogHub
收录
作者
关于
Transformer 的注意力头越多越好么
我爱自然语言处理
at
1 年前
多头注意力机制的目的是通过捕捉不同的注意力信息来提升 AI 模型的表达能力。利用多头矩阵的子空间从不同的视角或 […]……