专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211156215.3 (22)申请日 2022.09.22 (71)申请人淮阴工学院地址 223003 江苏省淮安市经济技术开发区枚乘东路1号 (72)发明人高尚兵　张骏强　苏睿　王媛媛　张海艳　马甲林　张正伟　朱全银　蔡利荣　陈晓兵　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师柏尚春 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置 (57)摘要本发明公开一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法及装置，首先同时对图神经网络教师模型以及Tran sformer学生模型进行初始训练；然后进行一阶段蒸馏训练，通过指标函数与门控单元对教师模型输出进行筛选，满足预设条件，则直接作为logits输入蒸馏损失函数指导学生模型，否则对文本表示进行数据增强，最后将输出残差叠加输入蒸馏损失函数指导学生模型训练；将教师模型与学生模型角色进行对调作为二阶段蒸馏训练，循环执行上述一阶段和二阶段蒸馏训练，最终获得蒸馏好的学生模型；实际应用时，将化工文本样本输入学生模型，获得预测输出文本类别。本发明通过构建的数据增强方法有效增强相互学习困难样本知识蒸馏效果，提升学生模型文本分类性能。权利要求书3页说明书6页附图1页 CN 115481249 A 2022.12.16 CN 115481249 A 1.一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，包括以下步骤： (1)输入原始化工产品语料集，对语料集中的化工产品文本样本进行数据清洗以及预处理； (2)基于从原始化工产品语料集中按照预设比例随机抽取的各化工产品样本文本，以及各化工产品样本文本分别对应预设分类下的相应真实类别，以化工产品样本文本为输入，化工产品样本文本所对应预设分类下相应类别为输出，同时对图神经网络教师模型以及Transformer学生模型进行初始训练，获得可以加载训练得到的初始权重的教师模型与学生模型； (3)基于原始化工产品语料集中的化工产品样本文本，进行一阶段相互学习蒸馏知识训练，将样本文本按照预设批次数量输入加载了初始权重的教师模型，教师模型输出对应文本表示将文本表示输入教师分类器中输出获得文本样本的预测结果 (4)通过预设指标函数对预测结果进行指标评分，将获得的分数f1输入门控单元中，根据门控单元的预设阈值函数进行筛选，若阈值函数输出非零，则将教师模型输出的该文本表示作为教师模型logits的有效输出，通过第一蒸馏损失函数对学生模型进行蒸馏训练指导；否则对教师模型输出的文本表示进行数据增强，将文本表示与根据预设的 dropout参数进行dropout操作后得到的教师模型输出的文本表示进行Mixup操作，获得数据增强后的文本表示 (5)将文本表示与原始文本表示进行残差叠加作为教师模型输出的logits，通过预设第一蒸馏损失函数对学生模型进行蒸馏训练指导； (6)基于原始化工产品语料集中的化工产品样本文本，进行二阶段相互学习知识蒸馏训练，将样本文本按照预设批次数量输入加载了初始权重的学生模型，学生模型输出对应文本表示将文本表示输入学生分类器中输出获得文本样本的预测结果 (7)通过预设指标函数对预测结果进行指标评分，将获得的分数f2输入门控单元中，根据门控单元的预设阈值函数进行筛选，若阈值函数输出非零，则将学生模型输出的该文本表示作为学生模型logits的有效输出，通过第二蒸馏损失函数对教师模型进行蒸馏训练指导，否则对学生模型输出的文本表示进行数据增强，将文本表示与根据预设的 dropout参数进行 dropout操作后得到的学生模型输出的文本表示进行Mixup操作，获得数据增强后的文本表示 (8)将文本表示与原始文本表示进行残差叠加作为学生模型输出的logits，通过预设第二蒸馏损失函数对教师模型进行蒸馏训练指导； (9)循环执行上述一阶段和二阶段相互学习知识蒸馏训练，直到达到预设的训练轮数，输出知识蒸馏训练好的学生模型；将化工产品文本样本输入学生模型，获得预测输出文本类别。 2.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方权　利　要　求　书 1/3 页 2 CN 115481249 A 2法，其特征在于，步骤(4)和步骤(7)所述预设指标函数为F1 ‑score生成函数。 3.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，步骤(4)和步骤(7)所述门控单元的预设阈值函数具体公式如下： ε＝ λF1+(1‑λ )F2 其中， f表示通过预设指标函数生成的指标评分， δ表示预设阈值上下浮动超参数， ε表示基础评判评分， F1和F2分别表示初始权重加载到对应模型上预测生成的宏平均F1 ‑score 指标和微平均F1 ‑score指标， λ表示调整两个指标之间权重的超参数。 4.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，步骤(4)所述数据增强具体实现公式如下：其中， μ表示从β 分布获得的Mixup插值混合超参数， x代表输入对应经过dropout操作后的教师模型的化工产品文本样本。 5.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，步骤(4)和步骤(7)所述根据预设的dropout参数进行dr opout操作，具体公式如下： 0.5≤Dinit<1 D＝0.75tanh(t ·ε ) 其中， dropout操作使得神经网络随机失活比例取值初始化范围为Dinit表示失活神经网络节点数占全部神经网络节点数的比重，初始化后每一组文本表示的dropout操作参数为 D， t表示归一化缩放超参数， tanh表示归一化函数。 6.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，步骤(5)所述残差叠加公式为：其中， RT表示教师模型l ogits的有效输出。 7.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法，其特征在于，步骤(5)所述指导学生模型训练的预设第一蒸馏损失函数LS公式为：其中，表示学生模型训练过程中根据化工产品样本文本训练输出的预测类别与真实类别labelS之间的交叉熵损失函数；表示用于相互学习损失计算的KL散度函数， γ代表控制不同损失之间权重的超参数， Z表示门控单元的预设阈值函数输出结果。 8.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法与装置，其特征在于，步骤(8)所述指导教师模型训练的预设第二蒸馏损失函数LT公式为：权　利　要　求　书 2/3 页 3 CN 115481249 A 3

专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置

专利基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置