(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211199296.5
(22)申请日 2022.09.29
(71)申请人 中电科新型智慧城市研究院有限公
司
地址 518000 广东省深圳市福田区华 富街
道深南大道1006号深圳国际创新中心
C栋19楼
(72)发明人 宁洪波 屈玉涛 王文敏 刘博
杜俊博
(74)专利代理 机构 深圳中一联合知识产权代理
有限公司 4 4414
专利代理师 徐晓龙
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多层级标签的信访文本分类方法、 装
置、 设备及 介质
(57)摘要
本申请适用于文本分类技术领域, 提供了基
于多层级标签的信访文本分类方法、 装置、 设备
及介质, 方法包括: 提取信访 文本中的重要句; 以
重要句组为输入运行分类模型, 得到第一标签结
果; 以预设的与所述第一标签结果一一对应的第
二标签集合和所述重要句组为输入运行标签排
序模型, 得到第二标签结果; 本申请通过多层级
标签分步预测, 能够降低信访文本分类的难度;
同时利用共享参数将第一标签结果和第二标签
结果的预测过程联系起来, 保证了针对第二标签
预测的结果准确性, 相比现有技术具有更好的准
确性和效率。
权利要求书2页 说明书20页 附图3页
CN 115408525 A
2022.11.29
CN 115408525 A
1.一种基于多层级标签的信访文本分类方法, 其特 征在于, 包括:
提取信访文本中的重要句; 所述重要句是指所述信访文本中符合预设条件的句子;
以重要句组为输入运行分类模型, 得到第一标签结果; 所述重要句组包括一个或多个
所述重要句;
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行
标签排序模型, 得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一
部分, 且所述分类模型中用于提取特征的至少一部 分参数和所述标签排序模型中用于提取
特征的至少一部分参数共享。
2.如权利要求1所述的基于多层级标签的信访文本分类方法, 其特征在于, 所述分类模
型包括编码器和分类输出层; 所述标签排序模型包括所述编码器和预测输出层; 所述编码
器、 所述分类输出层以及所述预测输出层构成预设的信访文本分类模型 的至少一部分; 所
述信访文本分类模型 是基于样本训练得到的深度学习模型;
所述编码器用于:
以所述重要句组为输入, 提取 得到第一信访文本特 征; 或者,
以预设的与 所述第一标签结果一一对应的第 二标签集合和所述重要句组为输入, 提取
得到第二信访文本特 征;
所述分类输出层用于根据所述第 一信访文本特征, 在预设的第 一标签集合中确定所述
重要句组所属的信访文本对应的至少一个第一标签结果;
所述预测输出层用于根据所述第 二信访文本特征, 在一一对应于所述第 一标签结果的
第二标签集 合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。
3.如权利要求2所述的基于多层级标签的信访文本分类方法, 其特征在于, 所述信访文
本分类模型 的训练过程包括领域预训练; 所述预训练包括第一训练、 第二训练或者联合预
训练;
所述第一训练是基于掩码语言模型MLM进行的自监 督训练;
所述第二训练是基于对比学习进行的自监 督训练;
所述联合训练包括同时进行的所述第一训练和所述第二训练。
4.如权利要求2所述的基于多层级标签的信访文本分类方法, 其特征在于, 所述信访文
本分类模型还包括半监督训练层; 所述信访文本分类模型 的训练过程包括多任务训练; 所
述多任务训练包括:
将多任务训练样本 中的一个迷你批输入所述编码器, 得到所述分类输出层输出的第 一
任务结果、 所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结
果; 所述第三任务结果是针对不存在真值的样本进行 KL散度一 致性预测得到的结果;
分别基于所述第一任务结果和预设的第 一损失函数、 所述第 二任务结果和预设的第 二
损失函数、 所述第三任务结果和 第三损失函数计算梯度并更新所述信 访文本分类模型的参
数;
返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤, 直至满足预设的
迭代停止条件。
5.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法, 其特征在权 利 要 求 书 1/2 页
2
CN 115408525 A
2于, 所述信访文本分类模型的训练样本包括补充样本集 合;
所述补充样本集合包括伪真值样本、 少数类别扩增样本、 攻击负样本以及对抗样本中
的任一者或任多者组合;
所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、 置信度满
足预设条件的预测真值和样本数据对; 所述真值模型是通过集成学习的方式训练得到的多
个模型;
所述少数类别扩增样本是指针对少数类别进行过采样得到的样本; 所述少数类别是指
样本数量小于设定的第一阈值的第一标签和/或第二标签;
所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字
面重合度大于设定的第二阈值的样本;
所述对抗样本是指在训练特征的负梯度方向增加预设的扰动, 构造得到的样本; 所述
训练特征是指所述编码器提取 预设样本得到的第一信访文本特 征或者第二信访文本特 征;
所述第一标签属于所述第一标签集 合; 所述第二标签属于任一第二标签集 合。
6.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法, 其特征在
于, 所述提取信访文本中的重要句的步骤 包括:
基于归一 化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数;
所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体
特征的相似度分数;
所述第二分数基于如下任一 者或任多者组合确定:
所述句子包括的实体词和/或预设的关键词的数量;
所述句子的权 重;
所述句子在所述信访文本中的位置;
将所述重要性分数满足预设条件的所述句子提取为重要句; 所述重要句的字符序列长
度和不大于预设的模型输入序列上限。
7.一种基于多层级标签的信访文本分类装置, 其特 征在于, 包括:
提取模块, 用于提取信访文本中的重要句; 所述重要句是指所述信访文本中符合预设
条件的句子;
第一标签模块, 用于以重要句组为输入运行分类模型, 得到第一标签结果; 所述重要句
组包括一个或多个所述重要句;
第二标签模块, 用于以预设的与 所述第一标签结果一一对应的第 二标签集合和所述重
要句组为输入运行 标签排序模型, 得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一
部分, 且所述分类模型中用于提取特征的至少一部 分参数和所述标签排序模型中用于提取
特征的至少一部分参数共享。
8.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至6
任一项所述的方法。
9.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时实现如权利要求1至 6任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115408525 A
3
专利 基于多层级标签的信访文本分类方法、装置、设备及介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:11上传分享