专利 企业舆情识别方法、装置、设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211035240.6 (22)申请日 2022.08.26 (71)申请人百度在线网络技术（北京）有限公司地址 100085 北京市海淀区上地十街10号百度大厦三层 (72)发明人戴加明　丁啸龙　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/295(2020.01) (54)发明名称企业舆情识别方法、装置、设备以及存储介质 (57)摘要本公开提供了一种企业舆情识别方法、装置、设备、存储介质以及程序产品，涉及深度学习和自然语言处理等人工智能领域。该方法的一具体实施方式包括：获取舆情文本；对舆情文本的基本单元进行企业实体识别，生成舆情文本的基本单元预测标签序列，其中，基本单元预测标签用于标注基本单元是否属于企业实体；基于基本单元预测标签序列，确定舆情文本关联的企业实体。该实施方式可以以舆情文本的基本单元为粒度对舆情文本进行企业实体识别，提高了企业舆情的召回率。权利要求书3页说明书9页附图5页 CN 115391536 A 2022.11.25 CN 115391536 A 1.一种企业舆情识别方法，包括：获取舆情文本；对所述舆情文本的基本单元进行企业实体识别，生成所述舆情文本的基本单元预测标签序列，其中，基本单元预测标签用于标注基本单元是否属于企业实体；基于所述基本单元预测标签序列，确定所述舆情文本关联的企业实体。 2.根据权利要求1所述的方法，其中，所述对所述舆情文本的基本单元进行企业实体识别，生成所述舆情文本的基本单元预测标签序列，包括：生成所述舆情文本的基本单元嵌入向量序列；将所述基本单元嵌入向量序列输入至预先训练的企业实体识别模型，得到所述基本单元预测标签序列。 3.根据权利要求2所述的方法，其中，所述企业实体识别模型由双向长短期记忆网络和条件随机场组成，所述双向长短期记忆网络用于结合上下文预测基本单元的标签，所述条件随机场在句子级别对顺序输出的基本单元预测标签序列进行线性约束。 4.根据权利要求1 ‑3中任一项所述的方法，其中，所述基于所述基本单元预测标签序列，确定所述舆情文本关联的企业实体，包括：基于所述基本单元预测标签序列，获取候选企业实体集合；对所述候选企业实体集合进行去重处理和低频过滤，得到所述舆情文本关联的企业实体。 5.根据权利要求4所述的方法，其中，所述基于所述基本单元预测标签序列，获取候选企业实体集合，包括：从所述舆情文本中提取所述基本单元预测标签序列标注的企业实体；查询所标注的企业实体对应的标识和企业全称，加入所述候选企业实体集合。 6.根据权利要求4或5所述的方法，其中，在所述对所述候选企业实体集合进行去重处理和低频过滤，得到所述舆情文本关联的企业实体之前，还包括：将所述舆情文本在企业全称字典树中进行最大匹配，将匹配成功的企业全称加入所述候选企业实体集合，其中，所述企业全称字典树用于存储企业全称；和/或将预先收集的企业全称集合中的企业全称划分成多个字段进行随机组合，得到组合企业全称集合，以及将所述舆情文本在所述组合企业全称集合中匹配，将匹配成功的组合企业全称加入所述候选实体集合。 7.根据权利要求4或5所述的方法，其中，在所述对所述候选企业实体集合进行去重处理和低频过滤，得到所述舆情文本关联的企业实体之前，还包括：将所述舆情文本在企业简称字典树中进行最大匹配，得到匹配成功的企业简称，其中，所述企业简称字典树用于存储企业简称；对所述匹配成功的企业简称进行关联度过滤，将过滤后的企业简称加入所述候选实体集合。 8.根据权利要求7所述的方法，其中，所述对所述匹配成功的企业简称进行关联度过滤，包括：基于预先收集的企业简称词表对所述匹配成功的企业简称进行过滤；和/或确定所述匹配成功的企业简称的词性，过滤掉地名词性的企业简称；和/或权　利　要　求　书 1/3 页 2 CN 115391536 A 2确定所述匹配成功的企业简称的在所述舆情文本的句子中的角色，保留主语角色或宾语角色的企业简称，以及确定包含在主语角色或宾语角色中的企业简称所在的句子占所述舆情文本的长度比例，基于所述长度比例对所述包含在主语角色或宾语角色中的企业简称进行过滤。 9.一种企业舆情识别装置，包括：获取模块，被配置成获取舆情文本；识别模块，被配置成对所述舆情文本的基本单元进行企业实体识别，生成所述舆情文本的基本单元预测标签序列，其中，基本单元预测标签用于标注基本单元是否属于企业实体；确定模块，被配置成基于所述基本单元预测标签序列，确定所述舆情文本关联的企业实体。 10.根据权利要求9所述的装置，其中，所述识别模块进一步被配置成：生成所述舆情文本的基本单元嵌入向量序列；将所述基本单元嵌入向量序列输入至预先训练的企业实体识别模型，得到所述基本单元预测标签序列。 11.根据权利要求10所述的装置，其中，所述企业实体识别模型由双向长短期记忆网络和条件随机场组成，所述双向长短期记忆网络用于结合上下文预测基本单元的标签，所述条件随机场在句子级别对顺序输出的基本单元预测标签序列进行线性约束。 12.根据权利要求9 ‑11中任一项所述的装置，其中，所述确定模块包括：获取子模块，被配置成基于所述基本单元预测标签序列，获取候选企业实体集合；过滤子模块，被配置成对所述候选企业实体集合进行去重处理和低频过滤，得到所述舆情文本关联的企业实体。 13.根据权利要求12所述的装置，其中，所述获取子模块包括：提取单元，被配置成从所述舆情文本中提取所述基本单元预测标签序列标注的企业实体；查询单元，被配置成查询所标注的企业实体对应的标识和企业全称，加入所述候选企业实体集合。 14.根据权利要求12或13所述的装置，其中，所述获取子模块还包括：第一匹配单元，被配置成将所述舆情文本在企业全称字典树中进行最大匹配，将匹配成功的企业全称加入所述候选企业实体集合，其中，所述企业全称字典树用于存储企业全称；和/或第二匹配单元，被配置成将预先收集的企业全称集合中的企业全称划分成多个字段进行随机组合，得到组合企业全称集合，以及将所述舆情文本在所述组合企业全称集合中匹配，将匹配成功的组合企业全称加入所述候选实体集合。 15.根据权利要求12或13所述的装置，其中，所述获取子模块还包括：第三匹配单元，被配置成将所述舆情文本在企业简称字典树中进行最大匹配，得到匹配成功的企业简称，其中，所述企业简称字典树用于存储企业简称；过滤单元，被配置成对所述匹配成功的企业简称进行关联度过滤，将过滤后的企业简称加入所述候选实体集合。权　利　要　求　书 2/3 页 3 CN 115391536 A 3

专利 企业舆情识别方法、装置、设备以及存储介质

专利企业舆情识别方法、装置、设备以及存储介质