转换码
介绍
在此仓库中,我们介绍了一种用于基于预训练的语言模型的新架构ConvBERT 。该代码在V100 GPU上进行了测试。有关详细说明和实验结果,请参阅我们的NeurIPS 2020论文 。
要求
的Python 3
张量流1.15
麻木
scikit学习
实验
预训练
这些指令使用语料库对中小型ConvBERT模型(17M参数)进行了。
要构建tf-record并对其进行预训练,请下载语料库(12G),并在build_data.sh和pretrain.sh设置数据目录。然后跑
bash