专利 基于多层级标签的信访文本分类方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211199296.5 (22)申请日 2022.09.29 (71)申请人中电科新型智慧城市研究院有限公司地址 518000 广东省深圳市福田区华富街道深南大道1006号深圳国际创新中心 C栋19楼 (72)发明人宁洪波　屈玉涛　王文敏　刘博　杜俊博　 (74)专利代理机构深圳中一联合知识产权代理有限公司 4 4414 专利代理师徐晓龙 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多层级标签的信访文本分类方法、装置、设备及介质 (57)摘要本申请适用于文本分类技术领域，提供了基于多层级标签的信访文本分类方法、装置、设备及介质，方法包括：提取信访文本中的重要句；以重要句组为输入运行分类模型，得到第一标签结果；以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；本申请通过多层级标签分步预测，能够降低信访文本分类的难度；同时利用共享参数将第一标签结果和第二标签结果的预测过程联系起来，保证了针对第二标签预测的结果准确性，相比现有技术具有更好的准确性和效率。权利要求书2页说明书20页附图3页 CN 115408525 A 2022.11.29 CN 115408525 A 1.一种基于多层级标签的信访文本分类方法，其特征在于，包括：提取信访文本中的重要句；所述重要句是指所述信访文本中符合预设条件的句子；以重要句组为输入运行分类模型，得到第一标签结果；所述重要句组包括一个或多个所述重要句；以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分，且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。 2.如权利要求1所述的基于多层级标签的信访文本分类方法，其特征在于，所述分类模型包括编码器和分类输出层；所述标签排序模型包括所述编码器和预测输出层；所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分；所述信访文本分类模型是基于样本训练得到的深度学习模型；所述编码器用于：以所述重要句组为输入，提取得到第一信访文本特征；或者，以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入，提取得到第二信访文本特征；所述分类输出层用于根据所述第一信访文本特征，在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果；所述预测输出层用于根据所述第二信访文本特征，在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。 3.如权利要求2所述的基于多层级标签的信访文本分类方法，其特征在于，所述信访文本分类模型的训练过程包括领域预训练；所述预训练包括第一训练、第二训练或者联合预训练；所述第一训练是基于掩码语言模型MLM进行的自监督训练；所述第二训练是基于对比学习进行的自监督训练；所述联合训练包括同时进行的所述第一训练和所述第二训练。 4.如权利要求2所述的基于多层级标签的信访文本分类方法，其特征在于，所述信访文本分类模型还包括半监督训练层；所述信访文本分类模型的训练过程包括多任务训练；所述多任务训练包括：将多任务训练样本中的一个迷你批输入所述编码器，得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果；所述第三任务结果是针对不存在真值的样本进行 KL散度一致性预测得到的结果；分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数；返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤，直至满足预设的迭代停止条件。 5.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法，其特征在权　利　要　求　书 1/2 页 2 CN 115408525 A 2于，所述信访文本分类模型的训练样本包括补充样本集合；所述补充样本集合包括伪真值样本、少数类别扩增样本、攻击负样本以及对抗样本中的任一者或任多者组合；所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、置信度满足预设条件的预测真值和样本数据对；所述真值模型是通过集成学习的方式训练得到的多个模型；所述少数类别扩增样本是指针对少数类别进行过采样得到的样本；所述少数类别是指样本数量小于设定的第一阈值的第一标签和/或第二标签；所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字面重合度大于设定的第二阈值的样本；所述对抗样本是指在训练特征的负梯度方向增加预设的扰动，构造得到的样本；所述训练特征是指所述编码器提取预设样本得到的第一信访文本特征或者第二信访文本特征；所述第一标签属于所述第一标签集合；所述第二标签属于任一第二标签集合。 6.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法，其特征在于，所述提取信访文本中的重要句的步骤包括：基于归一化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数；所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体特征的相似度分数；所述第二分数基于如下任一者或任多者组合确定：所述句子包括的实体词和/或预设的关键词的数量；所述句子的权重；所述句子在所述信访文本中的位置；将所述重要性分数满足预设条件的所述句子提取为重要句；所述重要句的字符序列长度和不大于预设的模型输入序列上限。 7.一种基于多层级标签的信访文本分类装置，其特征在于，包括：提取模块，用于提取信访文本中的重要句；所述重要句是指所述信访文本中符合预设条件的句子；第一标签模块，用于以重要句组为输入运行分类模型，得到第一标签结果；所述重要句组包括一个或多个所述重要句；第二标签模块，用于以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型，得到第二标签结果；所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分，且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。 8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6 任一项所述的方法。 9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 6任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115408525 A 3

专利 基于多层级标签的信访文本分类方法、装置、设备及介质

专利基于多层级标签的信访文本分类方法、装置、设备及介质