(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211201632.5
(22)申请日 2022.09.29
(71)申请人 北京明略昭辉科技有限公司
地址 100082 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 唐广法 李嘉琛 董世鹏 吴明辉
李采彧 李莹莹
(74)专利代理 机构 北京超成律师事务所 1 1646
专利代理师 王晓菲
(51)Int.Cl.
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种新词标注方法及装置、 电子设备、 存储
介质
(57)摘要
本发明提供了一种新词标注方法及装置、 电
子设备、 存储介质, 其中, 该新词标注方法包括:
获取多个标注者分别对每一训练文本数据的新
词标注结果; 针对每一训练文本数据, 获取多个
标注者对该训练文本数据的新词标注结果的并
集, 得到该训练文本数据的标签序列; 依据训练
文本数据及训练文本数据对应的标签序列, 训练
序列标注模型; 利用训练的序列标注模型, 对再
训练文本数据进行预测, 得到新词预测结果; 对
新词预测结果进行修正, 基于修正的新词预测结
果对训练好的序列标注模型进行再训练, 得到新
词标注模型; 对待标注文本数据进行处理, 将处
理后的待标注文本数据输入新词标注模型, 得到
待标注文本数据的新词标注结果。 可以提高新词
标注效率。
权利要求书2页 说明书10页 附图2页
CN 115438184 A
2022.12.06
CN 115438184 A
1.一种新词标注方法, 其特 征在于, 包括:
获取多个标注者分别对每一训练文本数据的新词标注结果;
针对每一训练文本数据, 获取所述多个标注者对该训练文本数据的新词标注结果的并
集, 得到该训练文本数据的标签序列;
依据训练文本数据以及训练文本数据对应的标签序列, 训练序列标注模型;
利用训练好的序列标注模型, 对预先设置的再训练文本数据进行预测, 得到该再训练
文本数据对应的新词预测结果;
对新词预测结果进行修正, 基于修正的新词预测结果对训练好的序列标注模型进行再
训练, 得到新词标注模型;
对待标注文本数据进行处理, 将处理后的待标注文本数据输入新词标注模型, 得到待
标注文本数据的新词标注结果。
2.根据权利要求1所述的方法, 其特征在于, 所述获取所述多个标注者对该训练文本数
据的新词标注结果的并集, 包括:
若标注者数量 为1, 所述并集 为该标注者对该训练文本数据的新词标注结果;
若标注者数量为2, 所述并集为该两名标注者分别对该训练文本数据的新词标注结果
中, 保留标签一 致的标注, 将标注的不 一致标签更新 为默认标签;
若标注者数量大于2, 所述并集为从所有标注者分别对该训练文本数据的新词标注结
果中, 对于每个字符的标签, 投票选取该字 符标注的标签, 选取票数最多的标签作为该字符
在所述并集中标注的标签。
3.根据权利要求2所述的方法, 其特征在于, 所述所述投票选取该字符标注的标签, 选
取票数最多的标签作为该字符在所述并集中标注的标签, 包括:
对于每个字符, 对标注者对该字符标注的标签进行统计, 选取标签数最多的标签作为
该字符的标签, 若标签数相同, 将该字符的标签设置为默认标签。
4.根据权利要求1或2所述的方法, 其特征在于, 所述依据训练文本数据以及训练文本
数据对应的标签序列, 训练序列标注模型, 包括:
将各训练文本数据划分为训练集、 验证集、 测试集;
基于训练集训练序列标注模型;
基于验证集、 测试集对训练的序列标注模型进行验证, 直至训练的序列标注模型的精
度满足预设的第一精度。
5.根据权利要求 4所述的方法, 其特 征在于, 所述基于训练集训练序列标注模型, 包括:
将训练集中的训练文本数据, 按照序列标注模型要求的数据格式进行转换;
查询预先存储的字典中字符与序号的映射关系, 获取数据格式转换后的训练文本数据
中每一字符映射的字符序号, 得到该数据格式转换后的训练文本数据映射的字符序号序
列;
按照序列标注模型要求的输入数据长度, 对字符序号序列进行掩码处理, 得到所述输
入数据长度的字符序号掩码序列;
以字符序号掩码序列作为序列 标注模型的输入, 以该字符序号掩码序列对应的标签序
列作为序列标注模型的输出, 对序列标注模型进行训练。
6.根据权利要求1或2所述的方法, 其特征在于, 所述对新词预测结果进行修正, 基于修权 利 要 求 书 1/2 页
2
CN 115438184 A
2正的新词预测结果对训练好的序列标注模型进行 再训练, 得到新词标注模型, 包括:
将再训练文本数据以及该再训练文本数据的新词预测结果分配给标注者进行修正, 获
取有改动的新词预测结果;
对于每一有改动的新词预测结果, 将该有改动的新词预测结果对应的再训练文本数据
输入训练好的序列标注模型, 以该有改动的新词预测结果作为训练好的序列标注模型的输
出, 进行再训练, 直至模型精度满足预设的第二精度。
7.一种新词标注装置, 其特 征在于, 包括:
标注模块, 用于获取多个标注者分别对每一训练文本数据的新词标注结果;
标注结果处理模块, 用于针对每一训练文本数据, 获取所述多个标注者对该训练文本
数据的新词标注结果的并集, 得到该训练文本数据的标签序列;
训练模块, 用于依据训练文本数据以及训练文本数据对应的标签序列, 训练序列标注
模型;
新词预测模块, 用于利用训练好的序列标注模型, 对预先设置的再训练文本数据进行
预测, 得到该 再训练文本数据对应的新词预测结果;
再训练模块, 用于对新词预测结果进行修正, 基于修正的新词预测结果对训练好的序
列标注模型进行 再训练, 得到新词标注模型;
新词标注模块, 用于对待标注文本数据进行处理, 将处理后的待标注文本数据输入新
词标注模型, 得到待标注文本数据的新词标注结果。
8.根据权利要求7 所述的装置, 其特 征在于, 所述标注结果处 理模块包括:
第一处理单元, 若标注者数量为1, 所述并集为该标注者对该训练文本数据的新词标注
结果;
第二处理单元, 若标注者数量为2, 所述并集为该两名标注者分别 对该训练文本数据的
新词标注结果中, 保留标签一 致的标注, 将标注的不 一致标签更新 为默认标签;
第三处理单元, 若标注者数量大于2, 所述并集为从所有标注者分别对该训练文本数据
的新词标注结果中, 对于每个字 符的标签, 投票选取该字符标注的标签, 选取票数最多的标
签作为该字符在所述并集中标注的标签。
9.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述
处理器可执行 的机器可读指令, 当计算机设备运行时, 所述处理器与所述存储器之间通过
总线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至6任一所述的新词标
注方法的步骤。
10.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程
序, 该计算机程序被处 理器运行时执 行如权利要求1至 6任一所述的新词标注方法的步骤。权 利 要 求 书 2/2 页
3
CN 115438184 A
3
专利 一种新词标注方法及装置、电子设备、存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:12:25上传分享