(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211063791.3
(22)申请日 2022.09.01
(65)同一申请的已公布的文献号
申请公布号 CN 115146644 A
(43)申请公布日 2022.10.04
(73)专利权人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 徐同阁 王昊旻 杨立群 刘连忠
(74)专利代理 机构 北京天汇航智知识产权代理
事务所(普通 合伙) 11987
专利代理师 陈陈数
(51)Int.Cl.
G06F 40/295(2020.01)
G06N 3/04(2006.01)
G06F 16/35(2019.01)G06F 40/242(2020.01)
G06F 40/279(2020.01)
审查员 穆滢
(54)发明名称
一种面向警情文本的多特征融合命名实体
识别方法
(57)摘要
本发明涉及自然语言处理的命名实体识别
技术领域, 具体为一种面向警情文本的多特征融
合命名实体识别方法, 首先, 构建警情命名实体
识别的数据集, 定义待识别的实体类型, 并划分
为训练集、 验证集和测试集; 其次, 使用预训练的
字向量得到文本的字符特征, 基于规则和字典进
行文本匹配得到预识别的标签特征, 将文本进行
拼音转换得到拼音特征; 最后, 将上述三种特征
融合, 送入双向长短期记忆网络 ‑条件随机场模
型中进行命名实体识别; 本发明通过构建一种多
特征融合的中文命名实体识别方法, 通过融合文
本字符特征、 预识别的标签特征和拼音特征, 有
效地表征了字的多义性, 提高了警情文本命名实
体识别的精确率、 召回率和综合评价指标F1值。
权利要求书3页 说明书9页 附图4页
CN 115146644 B
2022.11.22
CN 115146644 B
1.一种面向警情文本的多特 征融合命名实体识别方法, 其特 征在于, 包括如下步骤:
步骤S1: 警情文本信息提取, 按照警情案件分类, 从警情数据库中抽取对应类型的警情
文本;
步骤S2: 构建警情文本的命名实体识别数据集, 并划分为训练集、 验证集和 测试集;
步骤S3: 字符特征提取, 针对实体识别数据集中的数据, 得到其每个字符对应的字符向
量, 作为字符特征; 首先针对警情文本中的每一句话, 提取其字符并将字符向量化, 每个 向
量为多维的数字表达, 并提取向量 化字符作为字符特 征,
步骤S4: 标签特征提取, 对于各类实体, 定义各自的规则和字典, 利用规则和字典进行
字符串匹配, 对警情文本进行识别, 将得到的识别标签进行向量化表示, 将标签的向量化表
示作为标签特 征; 具体有以下步骤:
步骤S401: 根据不同的实体定义 不同的规则或是词典, 初步识别警情文本内容;
步骤S402: 报警人实体识别, 将警情文本中 “报”字之前的文本标注为报警人实体,
步骤S403: 地址实体识别, 构建结尾词词典, 通过字符串匹配, 将警情文本中 “在”字后
面的词与结尾词之前的词作为 地址实体进行 标注;
步骤S404: 涉案金额实体识别, 利用正则表达式对警情文本中的涉案金额进行识别;
步骤S405: 涉车车牌实体识别, 利用正则表达式对警情文本中的车牌 号实体进行识别;
步骤S406: 案件性质实体识别, 通过对警情文本的分析和统计, 将案件类型分为5个等
级, 共354种案件类型, 不同类型的案件有不同的词汇描述其性质, 构造案件性质词典对案
件性质实体进行匹配;
步骤S407: 涉案物品实体识别, 构建涉案物品词典, 采用字符串匹配进行识别;
步骤S408: 标签表示, 对于识别出的实体, 第一个字用 “B‑标签”表示, 中间字符用 “I‑标
签”表示, 最后一个字用 “E‑标签”表示, 其余未被规则匹配上的字符, 用标签 “O”来表示;
步骤S409: 经过上述规则和字典识别后, 对于文本序列 S,每个字符有对应的标签, 得到
标签序列L;
步骤S410: 向量化表示, 构建标签嵌入 的查询表, 将识别出的标签进行向量化的表示;
将标签的向量 化表示作为标签特 征;
步骤S5: 拼音特征提取, 获取警情文本中每个字的拼音, 进行向量化表示, 并将拼音的
向量化表示作为 其拼音特征; 具体包括以下分步骤:
步骤S501: 使用Python自带的pypinyin包, 获取不同字符的拼音表示, 每个字符的声调
放在其拼音之后;
步骤S502: 向量化表示, 构建拼音的查询表 epinyin, 将标签进行向量化的表示, 对于字符
将此向量 化拼音
作为字符的拼音特 征;
步骤S6: 多特征融合, 将字符特征、 标签特征和拼音特征三种特征向量进行融合; 所述
多特征融合采用直接拼接融合、 相加融合或抽取 特征后拼接融合方式 中的一种;
步骤S7: 模型训练, 构建多特征融合命名实体识别模型, 将训练集数据提取字符特征、
标签特征和拼音特征, 输入到双向长短期记忆网络中, 并使用条件随机场捕捉标签之间的
约束和依赖关系;
上述步骤S7多特 征融合向量送入Bi LSTM‑CRF模型中训练, 具体包括以下分步骤:权 利 要 求 书 1/3 页
2
CN 115146644 B
2步骤S701: 更新长短期记 忆网络的门结构;
步骤S702: 采用Bi LSTM模型获得每 个字符的上 下文向量;
步骤S703: 构建条件随机场, 捕捉标签之间的依赖关系, 得到预测的标签序列:
①计算发射矩阵
其中,O为发射矩阵,
, 是BiLSTM输出的状态序列;
为输出门的
权重矩阵,
为输出门的偏置项;
②对于一个标签序列
, 定义它的分值 为:
(7)
其中O是发射矩阵, 也就是各类标签预测的分数值,
表示第i个字符被预测为标签
的概率,
是转移概率矩阵, 表示标签类别之间的转移概率,
表示标签
转
移为
的概率,
表示所有可能的标签序列:
③训练时损失函数L 为:
(8)
为句子序列,
为句子对 应的出现的标签,
表示句子
被标记为 标签序列
的概率:
在训练过程中, 通过最小化句子级别的负对数似然概 率来训练模型:
④在预测时, 使用维特比算法找出 得分最高的标签序列
:
(9)
步骤S704: 使用验证数据 集, 根据综合评价指标F1值调 节模型至最优, 保存最优的模型
M1;
步骤S8: 模型测试, 将测试集数据送至多特征融合命名实体识别 模型中得到预测标签,
将预测标签与实际标签对比并计算测试样本中正确与错误检测的个数, 求得识别精确率P、
召回率R和综合评价指标 F1值, 所述综合评价指标 F1值的计算方式为:
;
步骤S9: 利用步骤S7中训练好的多特征融合命名实体识别 模型对警情数据库中其余未
标记的警情文本进行命名实体识别。
2.根据权利要求1中所述的一种面向警情文本的多特征融合命名实体识别方法, 其特
征在于, 在步骤S2中, 构建警情命名实体识别数据集的具体步骤为:
步骤S201: 数据清洗, 对警情文本进行 数据清洗, 去除异常符号, 乱码和重复数据;
步骤S202: 实体定义, 自定义6类实体, 包括报警人姓名、 警情案发地址、 涉案物品、 案件权 利 要 求 书 2/3 页
3
CN 115146644 B
3
专利 一种面向警情文本的多特征融合命名实体识别方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:17上传分享