团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211156215.3 (22)申请日 2022.09.22 (71)申请人 淮阴工学院 地址 223003 江苏省淮安市经济技 术开发 区枚乘东路1号 (72)发明人 高尚兵 张骏强 苏睿 王媛媛 张海艳 马甲林 张正伟 朱全银 蔡利荣 陈晓兵 (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 柏尚春 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于Gate-Mixup数据增强的知识蒸馏化工 文本分类方法及装置 (57)摘要 本发明公开一种基于Gate ‑Mixup数据增强 的知识蒸馏 化工文本分类方法及装置, 首先同时 对图神经网络教师模型以及Tran sformer学生模 型进行初始训练; 然后进行一阶段蒸馏训练, 通 过指标函数与 门控单元对教师模型输出进行筛 选, 满足预设条件, 则直接作为logits输入蒸馏 损失函数指导学生模型, 否则对文本表示进行数 据增强, 最后将输出残差叠加输入蒸馏损失函数 指导学生模 型训练; 将教师模型与学生模型角色 进行对调作为二阶段蒸馏训练, 循环执行上述一 阶段和二阶段蒸馏训练, 最终获得蒸馏好的学生 模型; 实际应用时, 将化工文本样本输入学生模 型, 获得预测输出文本类别。 本发明通过构建的 数据增强方法有效增强相互学习困难样本知识 蒸馏效果, 提升学生模型文本分类性能。 权利要求书3页 说明书6页 附图1页 CN 115481249 A 2022.12.16 CN 115481249 A 1.一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法, 其特征在于, 包括以 下步骤: (1)输入原始化工产品语料集, 对语料集中的化工产品文本样本进行数据清洗以及预 处理; (2)基于从原始化工产品语料集中按照预设比例随机抽取的各化工产品样本文本, 以 及各化工产品样本文本分别对应预设分类下的相应真实类别, 以化工产品样本文本为输 入, 化工产品样本文本所对应预设分类下相应类别为输出, 同时对图神经网络教师模型以 及Transformer学生模型进行初始训练, 获得可以加载训练得到的初始权重的教师模型与 学生模型; (3)基于原始化工产品语料集中的化工产品样本文本, 进行一阶段相互学习蒸馏知识 训练, 将样本文本按照预设批次数量输入加载了初始权重的教师模型, 教师模型输出对应 文本表示 将文本表示 输入教师分类 器中输出获得文本样本的预测结果 (4)通过预设指标函数对预测结果 进行指标评分, 将获得的分数f1输入门控单元中, 根据门控单元 的预设阈值函数进行筛选, 若阈值函数输出非零, 则将教师模型输出 的该文 本表示 作为教师模型logits的有效输出, 通过第一蒸馏损失函数对学生模型进行蒸馏 训练指导; 否则对 教师模型输出的文本表示 进行数据增强, 将文本表示 与根据预设的 dropout参数进行dropout操作后得到的教师模型输出的文本表示 进行Mixup操作, 获得 数据增强后的文本表示 (5)将文本表示 与原始文本表示 进行残差叠加作为教师模型输 出的logits, 通过 预设第一蒸馏损失函数对学生模型进行蒸馏训练指导; (6)基于原始化工产品语料集中的化工产品样本文本, 进行二阶段相互学习知识蒸馏 训练, 将样本文本按照预设批次数量输入加载了初始权重的学生模型, 学生模型输出对应 文本表示 将文本表示 输入学生分类 器中输出获得文本样本的预测结果 (7)通过预设指标函数对预测结果 进行指标评分, 将获得的分数f2输入门控单元中, 根据门控单元 的预设阈值函数进行筛选, 若阈值函数输出非零, 则将学生模型输出 的该文 本表示 作为学生模型logits的有效输出, 通过第二蒸馏损失函数对教师模型进行蒸馏训 练指导, 否则对学生模型输出的文本表示 进行数据增强, 将文本表示与根据预设的 dropout参数进行 dropout操作后得到的学生模型输出的文本表示 进行Mixup操作, 获得 数据增强后的文本表示 (8)将文本表示 与原始文本表示 进行残差叠加 作为学生模型输出的logits, 通过 预设第二蒸馏损失函数对教师模型进行蒸馏训练指导; (9)循环执行上述一阶段和二阶段相互学习知识蒸馏训练, 直到达到预设的训练轮数, 输出知识蒸馏训练好的学生模型; 将化工产品文本样本输入学生模型, 获得预测输出文本 类别。 2.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方权 利 要 求 书 1/3 页 2 CN 115481249 A 2法, 其特征在于, 步骤(4)和步骤(7)所述预设指标函数为F1 ‑score生成函数。 3.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)和步骤(7)所述门控单 元的预设阈值 函数具体公式如下: ε= λF1+(1‑λ )F2 其中, f表示通过预设指标函数生成的指标评分, δ表示预设阈值上下浮动超参数, ε表 示基础评判评分, F1和F2分别表示初始权重加载到对应模型上预测生成的宏平均F1 ‑score 指标和微平均F1 ‑score指标, λ表示调整两个指标之间权 重的超参数。 4.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)所述数据增强具体实现公式如下: 其中, μ表示从β 分布 获得的Mixup插值混合超参数, x代表输入对应经过dropout操作后 的教师模型 的化工产品文本样本 。 5.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(4)和步骤(7)所述根据预设的dropout参数进行dr opout操作, 具体公 式如下: 0.5≤Dinit<1 D=0.75tanh(t ·ε ) 其中, dropout操作使得神经网络随机失活比例取值初始化范围为Dinit表示失活神经网 络节点数占全部神经网络节点数的比重, 初始化后每一组文本表示的dropout操作参数为 D, t表示归一 化缩放超参数, tanh表示归一 化函数。 6.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(5)所述残差 叠加公式为: 其中, RT表示教师模型l ogits的有效输出。 7.根据权利要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方 法, 其特征在于, 步骤(5)所述指导学生模型训练的预设第一蒸馏损失函数LS公式为: 其中, 表示学生模型训练过程中根据化工产品样本文本训练输出的预测类别与真实 类别labelS之间的交叉熵损失函数; 表示用于相互学习损失计算的KL散度函数, γ代表 控制不同损失之间权 重的超参数, Z表示门控单 元的预设阈值 函数输出 结果。 8.根据权利 要求1所述的一种基于Gate ‑Mixup数据增强的知识蒸馏化工文本分类方法 与装置, 其特 征在于, 步骤(8)所述指导教师模型训练的预设第二蒸馏损失函数LT公式为:权 利 要 求 书 2/3 页 3 CN 115481249 A 3
专利 基于Gate-Mixup数据增强的知识蒸馏化工文本分类方法及装置
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:13:47
上传分享
举报
下载
原文档
(591.8 KB)
分享
友情链接
上海市重大行政决策程序规定.pdf
工商银行 2021网络金融黑产研究报告.pdf
DB31-T 684-2023 养老机构照护服务分级要求 上海市.pdf
T-CAEPI 72—2023 袋式除尘用折式滤筒技术要求.pdf
GB-T 20848-2017 系泊链.pdf
NB-T 10876-2021 水电工程建设征地移民安置规划设计规范.pdf
GB-T 41986-2022 全钒液流电池 设计导则.pdf
GB-T 37858-2019 纸浆 纤维湿重的测定.pdf
T-CEC 611—2022 变电站设备声成像测试技术导则.pdf
Gartner 网络安全IT路线图 .pdf
T-CAMDI 009.10—2020 无菌医疗器械初包装洁净度 第10部分:污染限量.pdf
GA 1800.3-2021 电力系统治安反恐防范要求 第3部分:水力发电企业.pdf
GB-T 14617.2-2012 陆地移动业务和固定业务传播特性 第2部分:100 MHz~1 000 MHz固定业务传播特性.pdf
信息安全能力建设5级矩阵 英文版.pdf
GB-T 4622.1-2022 管法兰用缠绕式垫片 第1部分:PN系列.pdf
GB-T 39405-2020 机器人分类.pdf
GB-T 32065.14-2019 海洋仪器环境试验方法 第14部分振动试验.pdf
GB-T 26540-2022 墙体保温系统用钢丝网架复合保温板.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
JR-T 0071.5—2020 金融行业网络安全等级保护实施指引 第5部分:审计要求.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(591.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。