(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211112641.7
(22)申请日 2022.09.14
(71)申请人 山东科技大 学
地址 266590 山东省青岛市黄岛区前湾港
路579号
(72)发明人 王贵玲 朱淑娟 潘正祥 吴祖扬
(74)专利代理 机构 青岛智地领创专利代理有限
公司 37252
专利代理师 冯昌进
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/295(2020.01)
G06N 3/00(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种面向突发性新闻文本的命名实体识别
方法
(57)摘要
本发明公开了一种面向突发性新闻文本的
命名实体识别方法, 属于新闻数据处理技术领
域, 包括如下步骤: 获取突发性新闻文本数据; 将
数据进行启发 式欠采样处理; 通过突发性新闻文
本中数据的训练集对BiLSTM ‑CRF模型进行训练,
根据相关评价指标的值确定欠采样的最佳比率
并获得相应的算法模型; 采用验证集进行验证,
获得性能良好的BiLS TM‑CRF模型; 实时获取突发
性新闻领域的文本数据, 首先利用二进制鹈鹕优
化算法对数据进行启发式欠采样处理, 然后基于
训练完成且性能良好的BiLSTM ‑CRF模型识别当
前文本数据的命名实体类型。 本发 明考虑到了海
量信息数据中实体类别不平衡的问题, 以更精
简、 高效、 高精度的方式实现突发性新闻领域的
命名实体识别任务。
权利要求书2页 说明书6页 附图3页
CN 115544251 A
2022.12.30
CN 115544251 A
1.一种面向突发性 新闻文本的命名实体识别方法, 其特 征在于, 包括以下步骤:
步骤1、 获取突发性 新闻领域的文本数据, 构建历史数据集, 并进行实体分类;
步骤2、 基于二进制鹈鹕优化 算法对数据进行启发式欠采样处 理;
步骤3、 通过突发性新 闻文本中数据的训练集对BiLSTM ‑CRF模型进行训练, 根据相关评
价指标的值确定欠采样的最佳比率并获得相应的算法模型;
步骤4、 采用验证集对训练完成的BiLSTM ‑CRF模型进行验证, 获得性能良好的BiLSTM ‑
CRF模型;
步骤5、 实时获取突发性新闻领域的文本数据, 首先利用二进制鹈鹕优化算法对数据进
行启发式欠采样处理, 然后基于训练完成且性能良好的BiLSTM ‑CRF模型识别当前文本数据
的命名实体 类型。
2.根据权利要求1所述面向突发性新闻文本的命名实体识别方法, 其特征在于, 所述步
骤1的具体过程如下:
步骤1.1、 分别从网络和书籍上获取突发性新闻领域的文本数据构建历史数据集, 包括
从百度百科、 各大新闻网上爬取, 以及从新闻领域的相关书 籍上获得; 获取的这两部 分数据
均为自然灾害、 事故灾难、 公共卫 生事件以及社会安全 事件相关的知识;
步骤1.2、 对数据集中的实体信息部分进行分类; 实体信息作为主语, 通过对突发性新
闻领域文本数据的分析, 按知识图谱的应用将实体部 分分为时间、 地点、 人物、 事件类型、 应
急机制、 技 术装备、 教育 培训七类, 之后的识别过程中将实体区分到对应的类别中;
步骤1.3、 将步骤1.1中获得的数据采用BIO标注法, 按照步骤1.2中的实体类型进行标
注, 标注分为 “B‑X”、“I‑X”、“O”三部分; 其中, “B‑X”表示实体类型X的首字符, “I‑X”表示实
体类型X的中间字符, “O”表示非实体。
3.根据权利要求1所述面向突发性新闻文本的命名实体识别方法, 其特征在于, 所述步
骤2的具体过程如下:
步骤2.1、 将非实体 “O”记为负样本, 其余记为正样本, 分别统计每个句子i的负样本个
数Nneg和正样本个数Npos, 计算每个句子的不平衡比IB; 选择最小的IB作为增量步长s, 计算
IB∈[IBi, IBi+s]的句子的数量, 将其相加, 得到整个文本的原 始不平衡率OIB;
步骤2.2、 使用二进制鹈鹕优化算法, 利用步骤2.1中的结果, 将句子中的每个负样本标
记为0, 正样本标记 为1, 进行负样 本的选择; 其中, 每个句子表 示为样本向量Ti=[t1,t2,…,
tm],i∈[1,n], n为文本中句子的个数, m为文本每个句子中正样本和 负样本向量的总数, tg
=0/1,g∈[1,m ];
步骤2.3、 将 样本向量输入到二进制鹈鹕优化 算法模型中, 进行样本的选择;
二进制鹈鹕优化算法使用V型传递函数将连续空间的解映射到离散空间中, 得到相应
的0/1串, 从而选择出想要的解, 建模过程为公式(5)和公式(6); 在原始样本向量Ti中, 正样
本1保持不变, 所有的负样本0参与到运算中, 将原始样本向量Ti赋值给种群个体向量Xi, 选
择最终经 过运算后变为1的负 样本, 从而实现样本数据的欠采样处 理;
权 利 要 求 书 1/2 页
2
CN 115544251 A
2其中, 样本向量Ti作为鹈鹕初始的种群位置向量;
是V型传递函数, tanh( )为双曲正
切函数xi,j表示个体 当前的位置; Xi,j表示第i个个体在第j维上的最终位置, rand是一个0~
1的随机数; 欠采样处 理的最终结果是 经过公式(6)运 算后, 所有Xi,j=1的样本 。
4.根据权利要求1所述面向突发性新闻文本的命名实体识别方法, 其特征在于, 所述步
骤3的具体过程如下:
步骤3.1、 使用分布式表示获得文本数据的向量表示H={ h1,h2,…,hm}∈Rm*d,其中, h表
示单个样本向量, Rm*d代表实数空间, m为文本每个句子中正样本和负样本向量的总数, d表
示向量维度;
步骤3.2、 利用步骤2.3 的欠采样结果结合步骤3.1的向量表示作为输入送到BiLSTM模
型中得到每 个样本对应各个实体 类型的分数;
其中, 欠采样结果结合向量表示, 包括依次使用 步骤2.1中的所有不平衡比OIB=[s,
OIB]、 二进制鹈鹕优化算法进行迭代测试, 使用F1作为评价指标, F1为精确度、 召回率进行
运算得到的全局指标; 结合后的形式为H={h1,h2,…,hm}∈Rm*d;
在迭代测试中, 将最大OIB设置为迭代次数l的最大值, 当前迭代次数l定义为l; 用二进
制鹈鹕优化算法选择出的样本来训练分类器, 用验证集来测试分类器, 至此迭代 次数加1;
重复此过程, 直至循环条件不满足 ‘l<=OIB’则跳出; 找到最高的F1, 从而选择出测试结果
最好的分类 器及对应的不平衡率OIB= l作为最终结果; F1的计算方式如公式(7)所示:
其中, P表示实体类型识别精确度, 即每个样本对应正确实体类型的分数, R表示召回
率; TP代表样本为正且预测结果也为正的样本数; FP代表样本为负但预测结果为正的样本
数; MP则表示进行欠采样后的样本的总数, 也 就是输入到Bi LSTM模型中的样本的数量;
步骤3.3、 将步骤3.2得到的分数输入到CRF模型中, CRF模型向最终的预测标签添加约
束; 最后, 选择 预测得分最高的标签序列的模型作为当前最优的Bi LSTM‑CRF模型输出。
5.根据权利要求1所述面向突发性新闻文本的命名实体识别方法, 其特征在于, 所述步
骤3.3中, 添加的约束包括: 句子中第一个单词的标签应该以 “B‑X”或“O”开头,“OI‑X”序列
无效。
6.根据权利要求1所述面向突发性新闻文本的命名实体识别方法, 其特征在于, 所述步
骤4的具体过程如下:
采用步骤3训练好的模型对突发性新闻文本数据的验证集进行命名实体识别, 测试样
本使用得到的最优欠采样比率进 行欠采样, 将结果结合向量表 示, 送入BiLSTM ‑CRF模型中;
将识别出的实体序列与验证集比对, 若一致则证明模型性能良好, 否则, 从[s,OIB]中依次
选取欠采样率, 重新进行训练。权 利 要 求 书 2/2 页
3
CN 115544251 A
3
专利 一种面向突发性新闻文本的命名实体识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:16上传分享