DeLighT:超深,轻量级的变压器
该存储库包含我们构建高效序列模型的工作的源代码: 和 。
目录
概述
在此存储库中,我们共享论文DeLight的源代码,该源代码与参数少得多的基于变压器的模型相比,可提供相似或更好的性能。 DeLighT使用DExTra更有效地分配参数(1)在每个Transformer块内,进行深度和轻量级转换,(2)使用逐块缩放跨块分配参数,从而允许在输入附近变浅和变窄DeLighT块,以及变宽和变深DeLighT在输出附近阻塞。总体而言,DeLighT网络的深度是标准变