团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211071302.9 (22)申请日 2022.09.02 (71)申请人 国网江苏省电力有限公司南 通供电 分公司 地址 226006 江苏省南 通市青年中路52号 (72)发明人 黄霆 代克丽 袁健华 黄峰  李伟伦 徐鹏鹏 杨鸣 钱霜秋  钱凌寒 马骏 徐华泽 任福临  (74)专利代理 机构 北京智绘未来专利代理事务 所(普通合伙) 11689 专利代理师 郑直 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/126(2020.01) G06K 9/62(2022.01)G06Q 30/08(2012.01) G06Q 50/06(2012.01) (54)发明名称 基于最大熵损失的文本预训练模型后门消 除方法、 系统及 介质 (57)摘要 基于最大熵损失的文本预训练模型后门消 除方法、 系统及介质, 所述方法包括: 将已被植入 后门的文本预训练模型的文本特征编码器参数 固定, 使用分类任务样本数据集训练文本分类器 直至收敛, 实现预训练模型的文本特征编码器、 文本分类器的参数状态对后门攻击场景的模拟; 使用最大熵损失对预训练模型的文本特征编码 器和文本分类器进行联合优化训练, 实现后门消 除; 在样本数据集上使用交叉熵损失重新训练文 本特征编码器和文本分类器参数, 以恢复预训练 模型对于样本的分类能力, 实现重训练。 在保证 模型在正常电网招标公告数据上分类准确的条 件下, 消除模型中的后门。 权利要求书2页 说明书10页 附图1页 CN 115495578 A 2022.12.20 CN 115495578 A 1.一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于, 包括以下步骤: 步骤1、 将已被植入后门的文本预训练模型的文本特征编码器参数固定, 使用分类任务 样本数据集训练文本分类器直至 收敛, 实现预训练模型 的文本特征编码器、 文本分类器的 参数状态对后门攻击场景的模拟; 步骤2、 使用最大熵损 失对预训练模型的文本特征编码器和文本分类器进行联合优化 训练, 实现后门消除; 步骤3、 在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分类器参数, 以恢复预训练模型对于样本的分类能力, 实现重训练。 2.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于, 步骤1中, 训练文本分类 器参数的公式如下: h=e(x) p=f(h) 式中, x表示模型的输入, 取值 为电网招标公告分类任务数据, e表示文本分类 器中的预训练文本编码器部分, h表示预训练文本编码器对文本编码后的向量, f表示文本分类 器中的线性分类 器部分, p表示文本分类 器对文本的分类结果, L表示交叉熵损失作为训练分类 器的损失函数, M表示输入数据集中的样本数目, yi表示第i个样本的标签。 3.根据权利要求2所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于, 步骤2中, 最大熵损失 公式如下 所示: L( θ )=‑H(pθ(y|x)) 式中, H表示信息熵, pθ表示模型进行 标签预测时的后验概 率。 4.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于, 步骤2中, 使用文本特征编码器处理分类任务数据中同一类别的所有样本, 将得到的向 量取均值, 作为相应类别的表 示向量, 计算不同类别表示向量之间的欧氏距离, 当该距离小 于一定阈值时停止训练。权 利 要 求 书 1/2 页 2 CN 115495578 A 25.根据权利要求3所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于, 步骤3中, 交叉熵损失函数与步骤1中所用交叉熵损失函数相同, 如下式所示: p=g(x) 式中, g表示文本分类 器。 6.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于: 使用梯度下降方法优化各个步骤涉及到的所有 待优化参数, 直至待优化 参数收敛。 7.根据权利要求1所述的一种基于最大熵损失的文本预训练模型后门消除方法, 其特 征在于: 步骤1中所述预训练文本特征编码器为基于深度学习方法得到的大规模预训练模型, 其参数规模大于1 10M。 8.一种利用权利要求1 ‑7任一项权利要求所述方法的一种基于最大熵损失的文本预训 练模型后门消除系统, 包括: 攻击场景模拟模块, 后门消除模块, 重训练模块, 其特 征在于: 攻击场景模拟模块用于将已被植入后门的文本预训练模型的文本特征编码器参数固 定, 使用分类任务样本数据集训练文本分类器直至 收敛, 实现预训练模型 的文本特征编码 器、 文本分类 器的参数状态对后门攻击场景的模拟; 后门消除模块用于使用最大熵损失对预训练模型的文本特征编码器和文本分类器进 行联合优化训练, 实现后门消除; 重训练模块用于在样本数据集上使用交叉熵损失重新训练文本特征编码器和文本分 类器参数, 以恢复预训练模型对于样本的分类能力, 实现重训练。 9.一种终端, 包括处 理器及存 储介质; 其特 征在于: 所述存储介质用于存 储指令; 所述处理器用于根据 所述指令进行操作以执行根据权利要求1 ‑8任一项所述一种基于 最大熵损失的文本预训练模型后门消除方法的步骤。 10.计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行 时实现权利要求 1‑8任一项所述一种基于最大熵损失的文本预训练模型后门消除方法的步 骤。权 利 要 求 书 2/2 页 3 CN 115495578 A 3

.PDF文档 专利 基于最大熵损失的文本预训练模型后门消除方法、系统及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 第 1 页 专利 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 第 2 页 专利 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。