专利 一种新词标注方法及装置、电子设备、存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211201632.5 (22)申请日 2022.09.29 (71)申请人北京明略昭辉科技有限公司地址 100082 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人唐广法　李嘉琛　董世鹏　吴明辉　李采彧　李莹莹　 (74)专利代理机构北京超成律师事务所 1 1646 专利代理师王晓菲 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称一种新词标注方法及装置、电子设备、存储介质 (57)摘要本发明提供了一种新词标注方法及装置、电子设备、存储介质，其中，该新词标注方法包括：获取多个标注者分别对每一训练文本数据的新词标注结果；针对每一训练文本数据，获取多个标注者对该训练文本数据的新词标注结果的并集，得到该训练文本数据的标签序列；依据训练文本数据及训练文本数据对应的标签序列，训练序列标注模型；利用训练的序列标注模型，对再训练文本数据进行预测，得到新词预测结果；对新词预测结果进行修正，基于修正的新词预测结果对训练好的序列标注模型进行再训练，得到新词标注模型；对待标注文本数据进行处理，将处理后的待标注文本数据输入新词标注模型，得到待标注文本数据的新词标注结果。可以提高新词标注效率。权利要求书2页说明书10页附图2页 CN 115438184 A 2022.12.06 CN 115438184 A 1.一种新词标注方法，其特征在于，包括：获取多个标注者分别对每一训练文本数据的新词标注结果；针对每一训练文本数据，获取所述多个标注者对该训练文本数据的新词标注结果的并集，得到该训练文本数据的标签序列；依据训练文本数据以及训练文本数据对应的标签序列，训练序列标注模型；利用训练好的序列标注模型，对预先设置的再训练文本数据进行预测，得到该再训练文本数据对应的新词预测结果；对新词预测结果进行修正，基于修正的新词预测结果对训练好的序列标注模型进行再训练，得到新词标注模型；对待标注文本数据进行处理，将处理后的待标注文本数据输入新词标注模型，得到待标注文本数据的新词标注结果。 2.根据权利要求1所述的方法，其特征在于，所述获取所述多个标注者对该训练文本数据的新词标注结果的并集，包括：若标注者数量为1，所述并集为该标注者对该训练文本数据的新词标注结果；若标注者数量为2，所述并集为该两名标注者分别对该训练文本数据的新词标注结果中，保留标签一致的标注，将标注的不一致标签更新为默认标签；若标注者数量大于2，所述并集为从所有标注者分别对该训练文本数据的新词标注结果中，对于每个字符的标签，投票选取该字符标注的标签，选取票数最多的标签作为该字符在所述并集中标注的标签。 3.根据权利要求2所述的方法，其特征在于，所述所述投票选取该字符标注的标签，选取票数最多的标签作为该字符在所述并集中标注的标签，包括：对于每个字符，对标注者对该字符标注的标签进行统计，选取标签数最多的标签作为该字符的标签，若标签数相同，将该字符的标签设置为默认标签。 4.根据权利要求1或2所述的方法，其特征在于，所述依据训练文本数据以及训练文本数据对应的标签序列，训练序列标注模型，包括：将各训练文本数据划分为训练集、验证集、测试集；基于训练集训练序列标注模型；基于验证集、测试集对训练的序列标注模型进行验证，直至训练的序列标注模型的精度满足预设的第一精度。 5.根据权利要求 4所述的方法，其特征在于，所述基于训练集训练序列标注模型，包括：将训练集中的训练文本数据，按照序列标注模型要求的数据格式进行转换；查询预先存储的字典中字符与序号的映射关系，获取数据格式转换后的训练文本数据中每一字符映射的字符序号，得到该数据格式转换后的训练文本数据映射的字符序号序列；按照序列标注模型要求的输入数据长度，对字符序号序列进行掩码处理，得到所述输入数据长度的字符序号掩码序列；以字符序号掩码序列作为序列标注模型的输入，以该字符序号掩码序列对应的标签序列作为序列标注模型的输出，对序列标注模型进行训练。 6.根据权利要求1或2所述的方法，其特征在于，所述对新词预测结果进行修正，基于修权　利　要　求　书 1/2 页 2 CN 115438184 A 2正的新词预测结果对训练好的序列标注模型进行再训练，得到新词标注模型，包括：将再训练文本数据以及该再训练文本数据的新词预测结果分配给标注者进行修正，获取有改动的新词预测结果；对于每一有改动的新词预测结果，将该有改动的新词预测结果对应的再训练文本数据输入训练好的序列标注模型，以该有改动的新词预测结果作为训练好的序列标注模型的输出，进行再训练，直至模型精度满足预设的第二精度。 7.一种新词标注装置，其特征在于，包括：标注模块，用于获取多个标注者分别对每一训练文本数据的新词标注结果；标注结果处理模块，用于针对每一训练文本数据，获取所述多个标注者对该训练文本数据的新词标注结果的并集，得到该训练文本数据的标签序列；训练模块，用于依据训练文本数据以及训练文本数据对应的标签序列，训练序列标注模型；新词预测模块，用于利用训练好的序列标注模型，对预先设置的再训练文本数据进行预测，得到该再训练文本数据对应的新词预测结果；再训练模块，用于对新词预测结果进行修正，基于修正的新词预测结果对训练好的序列标注模型进行再训练，得到新词标注模型；新词标注模块，用于对待标注文本数据进行处理，将处理后的待标注文本数据输入新词标注模型，得到待标注文本数据的新词标注结果。 8.根据权利要求7 所述的装置，其特征在于，所述标注结果处理模块包括：第一处理单元，若标注者数量为1，所述并集为该标注者对该训练文本数据的新词标注结果；第二处理单元，若标注者数量为2，所述并集为该两名标注者分别对该训练文本数据的新词标注结果中，保留标签一致的标注，将标注的不一致标签更新为默认标签；第三处理单元，若标注者数量大于2，所述并集为从所有标注者分别对该训练文本数据的新词标注结果中，对于每个字符的标签，投票选取该字符标注的标签，选取票数最多的标签作为该字符在所述并集中标注的标签。 9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求 1至6任一所述的新词标注方法的步骤。 10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至 6任一所述的新词标注方法的步骤。权　利　要　求　书 2/2 页 3 CN 115438184 A 3

专利 一种新词标注方法及装置、电子设备、存储介质

专利一种新词标注方法及装置、电子设备、存储介质