专利 一种面向突发性新闻文本的命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211112641.7 (22)申请日 2022.09.14 (71)申请人山东科技大学地址 266590 山东省青岛市黄岛区前湾港路579号 (72)发明人王贵玲　朱淑娟　潘正祥　吴祖扬　 (74)专利代理机构青岛智地领创专利代理有限公司 37252 专利代理师冯昌进 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06N 3/00(2006.01) G06N 3/04(2006.01) (54)发明名称一种面向突发性新闻文本的命名实体识别方法 (57)摘要本发明公开了一种面向突发性新闻文本的命名实体识别方法，属于新闻数据处理技术领域，包括如下步骤：获取突发性新闻文本数据；将数据进行启发式欠采样处理；通过突发性新闻文本中数据的训练集对BiLSTM ‑CRF模型进行训练，根据相关评价指标的值确定欠采样的最佳比率并获得相应的算法模型；采用验证集进行验证，获得性能良好的BiLS TM‑CRF模型；实时获取突发性新闻领域的文本数据，首先利用二进制鹈鹕优化算法对数据进行启发式欠采样处理，然后基于训练完成且性能良好的BiLSTM ‑CRF模型识别当前文本数据的命名实体类型。本发明考虑到了海量信息数据中实体类别不平衡的问题，以更精简、高效、高精度的方式实现突发性新闻领域的命名实体识别任务。权利要求书2页说明书6页附图3页 CN 115544251 A 2022.12.30 CN 115544251 A 1.一种面向突发性新闻文本的命名实体识别方法，其特征在于，包括以下步骤：步骤1、获取突发性新闻领域的文本数据，构建历史数据集，并进行实体分类；步骤2、基于二进制鹈鹕优化算法对数据进行启发式欠采样处理；步骤3、通过突发性新闻文本中数据的训练集对BiLSTM ‑CRF模型进行训练，根据相关评价指标的值确定欠采样的最佳比率并获得相应的算法模型；步骤4、采用验证集对训练完成的BiLSTM ‑CRF模型进行验证，获得性能良好的BiLSTM ‑ CRF模型；步骤5、实时获取突发性新闻领域的文本数据，首先利用二进制鹈鹕优化算法对数据进行启发式欠采样处理，然后基于训练完成且性能良好的BiLSTM ‑CRF模型识别当前文本数据的命名实体类型。 2.根据权利要求1所述面向突发性新闻文本的命名实体识别方法，其特征在于，所述步骤1的具体过程如下：步骤1.1、分别从网络和书籍上获取突发性新闻领域的文本数据构建历史数据集，包括从百度百科、各大新闻网上爬取，以及从新闻领域的相关书籍上获得；获取的这两部分数据均为自然灾害、事故灾难、公共卫生事件以及社会安全事件相关的知识；步骤1.2、对数据集中的实体信息部分进行分类；实体信息作为主语，通过对突发性新闻领域文本数据的分析，按知识图谱的应用将实体部分分为时间、地点、人物、事件类型、应急机制、技术装备、教育培训七类，之后的识别过程中将实体区分到对应的类别中；步骤1.3、将步骤1.1中获得的数据采用BIO标注法，按照步骤1.2中的实体类型进行标注，标注分为 “B‑X”、“I‑X”、“O”三部分；其中， “B‑X”表示实体类型X的首字符， “I‑X”表示实体类型X的中间字符， “O”表示非实体。 3.根据权利要求1所述面向突发性新闻文本的命名实体识别方法，其特征在于，所述步骤2的具体过程如下：步骤2.1、将非实体 “O”记为负样本，其余记为正样本，分别统计每个句子i的负样本个数Nneg和正样本个数Npos，计算每个句子的不平衡比IB；选择最小的IB作为增量步长s，计算 IB∈[IBi， IBi+s]的句子的数量，将其相加，得到整个文本的原始不平衡率OIB；步骤2.2、使用二进制鹈鹕优化算法，利用步骤2.1中的结果，将句子中的每个负样本标记为0，正样本标记为1，进行负样本的选择；其中，每个句子表示为样本向量Ti＝[t1,t2,…, tm],i∈[1,n]， n为文本中句子的个数， m为文本每个句子中正样本和负样本向量的总数， tg ＝0/1,g∈[1,m ]；步骤2.3、将样本向量输入到二进制鹈鹕优化算法模型中，进行样本的选择；二进制鹈鹕优化算法使用V型传递函数将连续空间的解映射到离散空间中，得到相应的0/1串，从而选择出想要的解，建模过程为公式(5)和公式(6)；在原始样本向量Ti中，正样本1保持不变，所有的负样本0参与到运算中，将原始样本向量Ti赋值给种群个体向量Xi，选择最终经过运算后变为1的负样本，从而实现样本数据的欠采样处理；权　利　要　求　书 1/2 页 2 CN 115544251 A 2其中，样本向量Ti作为鹈鹕初始的种群位置向量；是V型传递函数， tanh( )为双曲正切函数xi,j表示个体当前的位置； Xi,j表示第i个个体在第j维上的最终位置， rand是一个0～ 1的随机数；欠采样处理的最终结果是经过公式(6)运算后，所有Xi,j＝1的样本。 4.根据权利要求1所述面向突发性新闻文本的命名实体识别方法，其特征在于，所述步骤3的具体过程如下：步骤3.1、使用分布式表示获得文本数据的向量表示H＝{ h1,h2,…,hm}∈Rm*d,其中， h表示单个样本向量， Rm*d代表实数空间， m为文本每个句子中正样本和负样本向量的总数， d表示向量维度；步骤3.2、利用步骤2.3 的欠采样结果结合步骤3.1的向量表示作为输入送到BiLSTM模型中得到每个样本对应各个实体类型的分数；其中，欠采样结果结合向量表示，包括依次使用步骤2.1中的所有不平衡比OIB＝[s, OIB]、二进制鹈鹕优化算法进行迭代测试，使用F1作为评价指标， F1为精确度、召回率进行运算得到的全局指标；结合后的形式为H＝{h1,h2,…,hm}∈Rm*d；在迭代测试中，将最大OIB设置为迭代次数l的最大值，当前迭代次数l定义为l；用二进制鹈鹕优化算法选择出的样本来训练分类器，用验证集来测试分类器，至此迭代次数加1；重复此过程，直至循环条件不满足 ‘l<＝OIB’则跳出；找到最高的F1，从而选择出测试结果最好的分类器及对应的不平衡率OIB＝ l作为最终结果； F1的计算方式如公式(7)所示：其中， P表示实体类型识别精确度，即每个样本对应正确实体类型的分数， R表示召回率； TP代表样本为正且预测结果也为正的样本数； FP代表样本为负但预测结果为正的样本数； MP则表示进行欠采样后的样本的总数，也就是输入到Bi LSTM模型中的样本的数量；步骤3.3、将步骤3.2得到的分数输入到CRF模型中， CRF模型向最终的预测标签添加约束；最后，选择预测得分最高的标签序列的模型作为当前最优的Bi LSTM‑CRF模型输出。 5.根据权利要求1所述面向突发性新闻文本的命名实体识别方法，其特征在于，所述步骤3.3中，添加的约束包括：句子中第一个单词的标签应该以 “B‑X”或“O”开头，“OI‑X”序列无效。 6.根据权利要求1所述面向突发性新闻文本的命名实体识别方法，其特征在于，所述步骤4的具体过程如下：采用步骤3训练好的模型对突发性新闻文本数据的验证集进行命名实体识别，测试样本使用得到的最优欠采样比率进行欠采样，将结果结合向量表示，送入BiLSTM ‑CRF模型中；将识别出的实体序列与验证集比对，若一致则证明模型性能良好，否则，从[s,OIB]中依次选取欠采样率，重新进行训练。权　利　要　求　书 2/2 页 3 CN 115544251 A 3

专利 一种面向突发性新闻文本的命名实体识别方法

专利一种面向突发性新闻文本的命名实体识别方法