Dialogue Transformers 论文详解

小令童鞋 at 
论文中引入 transformer 的结构,其中注意力模型在对话轮的顺序上面起了了作用.最近我们使用递归神经网络多轮对话的上下文中用户说的话,但是我们原本认为注意力模型会更适合多轮场景.默认情况下,RNN 假设每个选项和完整的序列有关,但是一轮对话当中包括一些交错的对话逻辑在里面. transformer 模型可以选择忽略或者选择对话的一部分内容.们比较了 Transformer Embedding Dialogue 对话策略对 LSTM 和 REDP 的政策.旨在克服 RNN 的这一限制。我们证明了 TED 的政策无论是在准确性还是速度上,行为都是比较有利的。……