说明:注意模型已经成为神经机器翻译(NMT)的标准组件,并且在预测每个目标单词时通过选择性地关注源句子的各个部分来指导翻译过程。 然而,我们发现目标词的生成不仅取决于源语句,而且还严重依赖于先前生成的目标词,尤其是难以使用递归神经网络建模的远距离词。 为了解决这个问题,本文提出了一种新颖的NMT生成中的前瞻性注意机制,旨在直接捕获目标词之间的依赖关系。 我们进一步设计了三种模式,以将我们的前瞻性注意力整合到常规注意力模型中。 在NIST的中文到英语和WMT的英语到德语翻译任务上进行的实验表明,我们提出
<weixin_38528517> 上传 | 大小:512kb