摘要:随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的B(试读)...