专利 一种面向警情文本的多特征融合命名实体识别方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211063791.3 (22)申请日 2022.09.01 (65)同一申请的已公布的文献号申请公布号 CN 115146644 A (43)申请公布日 2022.10.04 (73)专利权人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人徐同阁　王昊旻　杨立群　刘连忠　 (74)专利代理机构北京天汇航智知识产权代理事务所(普通合伙) 11987 专利代理师陈陈数 (51)Int.Cl. G06F 40/295(2020.01) G06N 3/04(2006.01) G06F 16/35(2019.01)G06F 40/242(2020.01) G06F 40/279(2020.01) 审查员穆滢 (54)发明名称一种面向警情文本的多特征融合命名实体识别方法 (57)摘要本发明涉及自然语言处理的命名实体识别技术领域，具体为一种面向警情文本的多特征融合命名实体识别方法，首先，构建警情命名实体识别的数据集，定义待识别的实体类型，并划分为训练集、验证集和测试集；其次，使用预训练的字向量得到文本的字符特征，基于规则和字典进行文本匹配得到预识别的标签特征，将文本进行拼音转换得到拼音特征；最后，将上述三种特征融合，送入双向长短期记忆网络 ‑条件随机场模型中进行命名实体识别；本发明通过构建一种多特征融合的中文命名实体识别方法，通过融合文本字符特征、预识别的标签特征和拼音特征，有效地表征了字的多义性，提高了警情文本命名实体识别的精确率、召回率和综合评价指标F1值。权利要求书3页说明书9页附图4页 CN 115146644 B 2022.11.22 CN 115146644 B 1.一种面向警情文本的多特征融合命名实体识别方法，其特征在于，包括如下步骤：步骤S1：警情文本信息提取，按照警情案件分类，从警情数据库中抽取对应类型的警情文本；步骤S2：构建警情文本的命名实体识别数据集，并划分为训练集、验证集和测试集；步骤S3：字符特征提取，针对实体识别数据集中的数据，得到其每个字符对应的字符向量，作为字符特征；首先针对警情文本中的每一句话，提取其字符并将字符向量化，每个向量为多维的数字表达，并提取向量化字符作为字符特征，步骤S4：标签特征提取，对于各类实体，定义各自的规则和字典，利用规则和字典进行字符串匹配，对警情文本进行识别，将得到的识别标签进行向量化表示，将标签的向量化表示作为标签特征；具体有以下步骤：步骤S401：根据不同的实体定义不同的规则或是词典，初步识别警情文本内容；步骤S402：报警人实体识别，将警情文本中 “报”字之前的文本标注为报警人实体，步骤S403：地址实体识别，构建结尾词词典，通过字符串匹配，将警情文本中 “在”字后面的词与结尾词之前的词作为地址实体进行标注；步骤S404：涉案金额实体识别，利用正则表达式对警情文本中的涉案金额进行识别；步骤S405：涉车车牌实体识别，利用正则表达式对警情文本中的车牌号实体进行识别；步骤S406：案件性质实体识别，通过对警情文本的分析和统计，将案件类型分为5个等级，共354种案件类型，不同类型的案件有不同的词汇描述其性质，构造案件性质词典对案件性质实体进行匹配；步骤S407：涉案物品实体识别，构建涉案物品词典，采用字符串匹配进行识别；步骤S408：标签表示，对于识别出的实体，第一个字用 “B‑标签”表示，中间字符用 “I‑标签”表示，最后一个字用 “E‑标签”表示，其余未被规则匹配上的字符，用标签 “O”来表示；步骤S409：经过上述规则和字典识别后，对于文本序列 S，每个字符有对应的标签，得到标签序列L；步骤S410：向量化表示，构建标签嵌入的查询表，将识别出的标签进行向量化的表示；将标签的向量化表示作为标签特征；步骤S5：拼音特征提取，获取警情文本中每个字的拼音，进行向量化表示，并将拼音的向量化表示作为其拼音特征；具体包括以下分步骤：步骤S501：使用Python自带的pypinyin包，获取不同字符的拼音表示，每个字符的声调放在其拼音之后；步骤S502：向量化表示，构建拼音的查询表 epinyin，将标签进行向量化的表示，对于字符将此向量化拼音作为字符的拼音特征；步骤S6：多特征融合，将字符特征、标签特征和拼音特征三种特征向量进行融合；所述多特征融合采用直接拼接融合、相加融合或抽取特征后拼接融合方式中的一种；步骤S7：模型训练，构建多特征融合命名实体识别模型，将训练集数据提取字符特征、标签特征和拼音特征，输入到双向长短期记忆网络中，并使用条件随机场捕捉标签之间的约束和依赖关系；上述步骤S7多特征融合向量送入Bi LSTM‑CRF模型中训练，具体包括以下分步骤：权　利　要　求　书 1/3 页 2 CN 115146644 B 2步骤S701：更新长短期记忆网络的门结构；步骤S702：采用Bi LSTM模型获得每个字符的上下文向量；步骤S703：构建条件随机场，捕捉标签之间的依赖关系，得到预测的标签序列： ①计算发射矩阵其中，O为发射矩阵，，是BiLSTM输出的状态序列；为输出门的权重矩阵，为输出门的偏置项； ②对于一个标签序列，定义它的分值为： (7) 其中O是发射矩阵，也就是各类标签预测的分数值，表示第i个字符被预测为标签的概率，是转移概率矩阵，表示标签类别之间的转移概率，表示标签转移为的概率，表示所有可能的标签序列： ③训练时损失函数L 为： (8) 为句子序列，为句子对应的出现的标签，表示句子被标记为标签序列的概率：在训练过程中，通过最小化句子级别的负对数似然概率来训练模型： ④在预测时，使用维特比算法找出得分最高的标签序列 : (9) 步骤S704：使用验证数据集，根据综合评价指标F1值调节模型至最优，保存最优的模型 M1；步骤S8：模型测试，将测试集数据送至多特征融合命名实体识别模型中得到预测标签，将预测标签与实际标签对比并计算测试样本中正确与错误检测的个数，求得识别精确率P、召回率R和综合评价指标 F1值，所述综合评价指标 F1值的计算方式为：；步骤S9：利用步骤S7中训练好的多特征融合命名实体识别模型对警情数据库中其余未标记的警情文本进行命名实体识别。 2.根据权利要求1中所述的一种面向警情文本的多特征融合命名实体识别方法，其特征在于，在步骤S2中，构建警情命名实体识别数据集的具体步骤为：步骤S201：数据清洗，对警情文本进行数据清洗，去除异常符号，乱码和重复数据；步骤S202：实体定义，自定义6类实体，包括报警人姓名、警情案发地址、涉案物品、案件权　利　要　求　书 2/3 页 3 CN 115146644 B 3

专利 一种面向警情文本的多特征融合命名实体识别方法

专利一种面向警情文本的多特征融合命名实体识别方法