团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211156215.3 (22)申请日 2022.09.22 (71)申请人 淮阴工学院 地址 223003 江苏省淮安市经济技 术开发 区枚乘东路1号 (72)发明人 高尚兵 张骏强 苏睿 王媛媛  张海艳 马甲林 张正伟 朱全银  蔡利荣 陈晓兵  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 柏尚春 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Gate-Mixup数据增强的知识蒸馏化工 文本分类方法及装置 (57)摘要 本发明公开一种基于Gate ‑Mixup数据增强 的知识蒸馏 化工文本分类方法及装置, 首先同时 对图神经网络教师模型以及Tran sformer学生模 型进行初始训练; 然后进行一阶段蒸馏训练, 通 过指标函数与 门控单元对教师模型输出进行筛 选, 满足预设条件, 则直接作为logits输入蒸馏 损失函数指导学生模型, 否则对文本表示进行数 据增强, 最后将输出残差叠加输入蒸馏损失函数 指导学生模 型训练; 将教师模型与学生模型角色 进行对调作为二阶段蒸馏训练, 循环执行上述一 阶段和二阶段蒸馏训练, 最终获得蒸馏好的学生 模型; 实际应用时, 将化工文本样本输入学生模 型, 获得预测输出文本类别。 本发明通过构建的 数据增强方法有效增强相互学习困难样本知识 蒸馏效果, 提升学生模型文本分类性能。 权利要求书3页 说明书6页 附图1页 CN 115481249 A 2022.12.16 CN 115481249 A 1.一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法, 其特征在于, 包括以 下步骤: (1)输入原始化工产品语料集, 对语料集中的化工产品文本样本进行数据清洗以及预 处理; (2)基于从原始化工产品语料集中按照预设比例随机抽取的各化工产品样本文本, 以 及各化工产品样本文本分别对应预设分类下的相应真实类别, 以化工产品样本文本为输 入, 化工产品样本文本所对应预设分类下相应类别为输出, 同时对图神经网络教师模型以 及Transformer学生模型进行初始训练, 获得可以加载训练得到的初始权重的教师模型与 学生模型; (3)基于原始化工产品语料集中的化工产品样本文本, 进行一阶段相互学习蒸馏知识 训练, 将样本文本按照预设批次数量输入加载了初始权重的教师模型, 教师模型输出对应 文本表示 将文本表示 输入教师分类 器中输出获得文本样本的预测结果 (4)通过预设指标函数对预测结果 进行指标评分, 将获得的分数f1输入门控单元中, 根据门控单元 的预设阈值函数进行筛选, 若阈值函数输出非零, 则将教师模型输出 的该文 本表示 作为教师模型logits的有效输出, 通过第一蒸馏损失函数对学生模型进行蒸馏 训练指导; 否则对 教师模型输出的文本表示 进行数据增强, 将文本表示 与根据预设的 dropout参数进行dropout操作后得到的教师模型输出的文本表示 进行Mixup操作, 获得 数据增强后的文本表示 (5)将文本表示 与原始文本表示 进行残差叠加作为教师模型输 出的logits, 通过 预设第一蒸馏损失函数对学生模型进行蒸馏训练指导; (6)基于原始化工产品语料集中的化工产品样本文本, 进行二阶段相互学习知识蒸馏 训练, 将样本文本按照预设批次数量输入加载了初始权重的学生模型, 学生模型输出对应 文本表示 将文本表示 输入学生分类 器中输出获得文本样本的预测结果 (7)通过预设指标函数对预测结果 进行指标评分, 将获得的分数f2输入门控单元中, 根据门控单元 的预设阈值函数进行筛选, 若阈值函数输出非零, 则将学生模型输出 的该文 本表示 作为学生模型logits的有效输出, 通过第二蒸馏损失函数对教师模型进行蒸馏训 练指导, 否则对学生模型输出的文本表示 进行数据增强, 将文本表示与根据预设的 dropout参数进行 dropout操作后得到的学生模型输出的文本表示 进行Mixup操作, 获得 数据增强后的文本表示 (8)将文本表示 与原始文本表示 进行残差叠加 作为学生模型输出的logits, 通过 预设第二蒸馏损失函数对教师模型进行蒸馏训练指导; (9)循环执行上述一阶段和二阶段相互学习知识蒸馏训练, 直到达到预设的训练轮数, 输出知识蒸馏训练好的学生模型; 将化工产品文本样本输入学生模型, 获得预测输出文本 类别。 2.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方权 利 要 求 书 1/3 页 2 CN 115481249 A 2法, 其特征在于, 步骤(4)和步骤(7)所述预设指标函数为F1 ‑score生成函数。 3.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)和步骤(7)所述门控单 元的预设阈值 函数具体公式如下: ε= λF1+(1‑λ )F2 其中, f表示通过预设指标函数生成的指标评分, δ表示预设阈值上下浮动超参数, ε表 示基础评判评分, F1和F2分别表示初始权重加载到对应模型上预测生成的宏平均F1 ‑score 指标和微平均F1 ‑score指标, λ表示调整两个指标之间权 重的超参数。 4.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)所述数据增强具体实现公式如下: 其中, μ表示从β 分布 获得的Mixup插值混合超参数, x代表输入对应经过dropout操作后 的教师模型 的化工产品文本样本 。 5.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)和步骤(7)所述根据预设的dropout参数进行dr opout操作, 具体公 式如下: 0.5≤Dinit<1 D=0.75tanh(t ·ε ) 其中, dropout操作使得神经网络随机失活比例取值初始化范围为Dinit表示失活神经网 络节点数占全部神经网络节点数的比重, 初始化后每一组文本表示的dropout操作参数为 D, t表示归一 化缩放超参数, tanh表示归一 化函数。 6.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(5)所述残差 叠加公式为: 其中, RT表示教师模型l ogits的有效输出。 7.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(5)所述指导学生模型训练的预设第一蒸馏损失函数LS公式为: 其中, 表示学生模型训练过程中根据化工产品样本文本训练输出的预测类别与真实 类别labelS之间的交叉熵损失函数; 表示用于相互学习损失计算的KL散度函数, γ代表 控制不同损失之间权 重的超参数, Z表示门控单 元的预设阈值 函数输出 结果。 8.根据权利 要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法 与装置, 其特 征在于, 步骤(8)所述指导教师模型训练的预设第二蒸馏损失函数LT公式为:权 利 要 求 书 2/3 页 3 CN 115481249 A 3

.PDF文档 专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置 第 1 页 专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置 第 2 页 专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。