(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211035240.6
(22)申请日 2022.08.26
(71)申请人 百度在线网络技 术 (北京) 有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦三层
(72)发明人 戴加明 丁啸龙
(74)专利代理 机构 北京英赛 嘉华知识产权代理
有限责任公司 1 1204
专利代理师 王达佐 马晓亚
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/31(2019.01)
G06F 40/295(2020.01)
(54)发明名称
企业舆情识别方法、 装置、 设备以及存储介
质
(57)摘要
本公开提供了一种企业舆情识别方法、 装
置、 设备、 存储介质以及程序产品, 涉及深度学习
和自然语言处理等人工智能领域。 该方法的一具
体实施方式包括: 获取舆情文本; 对舆情文本的
基本单元进行 企业实体识别, 生成舆情文本的基
本单元预测标签序列, 其中, 基本单元预测标签
用于标注基本单元是否属于企业实体; 基于基本
单元预测标签序列, 确定舆情文本关联的企业实
体。 该实施方式可以以舆情文本的基本单元为粒
度对舆情文本进行企业实体识别, 提高了企业舆
情的召回率。
权利要求书3页 说明书9页 附图5页
CN 115391536 A
2022.11.25
CN 115391536 A
1.一种企业舆情识别方法, 包括:
获取舆情文本;
对所述舆情文本的基本单元进行企业实体识别, 生成所述舆情文本的基本单元预测标
签序列, 其中, 基本单 元预测标签用于标注基本单 元是否属于企业实体;
基于所述基本单 元预测标签序列, 确定所述舆情文本关联的企业实体。
2.根据权利要求1所述的方法, 其中, 所述对所述舆情文本的基本单元进行企业实体识
别, 生成所述舆情文本的基本单 元预测标签序列, 包括:
生成所述舆情文本的基本单 元嵌入向量序列;
将所述基本单元嵌入向量序列输入至预先训练的企业实体识别模型, 得到所述基本单
元预测标签序列。
3.根据权利要求2所述的方法, 其中, 所述企业实体识别模型由双向长短期记忆网络和
条件随机场组成, 所述双向长短期记忆网络用于结合上下文预测基本单元 的标签, 所述条
件随机场在句子级别对顺序输出的基本单 元预测标签序列进行线性约束。
4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述基于所述基本单元预测标签序
列, 确定所述舆情文本关联的企业实体, 包括:
基于所述基本单 元预测标签序列, 获取候选企业实体集 合;
对所述候选企业实体集合进行去重处理和低频过滤, 得到所述舆情文本关联的企业实
体。
5.根据权利要求4所述的方法, 其中, 所述基于所述基本单元预测标签序列, 获取候选
企业实体集 合, 包括:
从所述舆情文本中提取 所述基本单 元预测标签序列标注的企业实体;
查询所标注的企业实体对应的标识和企业全称, 加入所述 候选企业实体集 合。
6.根据权利要求4或5所述的方法, 其中, 在所述对所述候选企业实体集合进行去重处
理和低频 过滤, 得到所述舆情文本关联的企业实体之前, 还 包括:
将所述舆情文本在企业全称字典树中进行最大匹配, 将匹配成功的企业全称加入所述
候选企业实体集 合, 其中, 所述企业全称字典树用于存 储企业全称; 和/或
将预先收集的企业全称集合中的企业全称划分成多个字段进行随机组合, 得到组合企
业全称集合, 以及将所述舆情文本在所述组合企业全称集合中匹配, 将匹配成功的组合企
业全称加入所述 候选实体集 合。
7.根据权利要求4或5所述的方法, 其中, 在所述对所述候选企业实体集合进行去重处
理和低频 过滤, 得到所述舆情文本关联的企业实体之前, 还 包括:
将所述舆情文本在企业简称字典树中进行最大匹配, 得到匹配成功的企业简称, 其中,
所述企业简称字典树用于存 储企业简称;
对所述匹配成功的企业简称进行关联度过滤, 将过滤后的企业简称加入所述候选实体
集合。
8.根据权利要求7所述的方法, 其中, 所述对所述匹配成功的企业简称进行关联度过
滤, 包括:
基于预先收集的企业简称词表对所述匹配成功的企业简称进行 过滤; 和/或
确定所述匹配成功的企业简称的词性, 过 滤掉地名词性的企业简称; 和/或权 利 要 求 书 1/3 页
2
CN 115391536 A
2确定所述匹配成功的企业简称的在所述舆情文本的句子中的角色, 保留主语角色或宾
语角色的企业简称, 以及确定包含在主语角色或宾语角色中的企业简称所在的句子占所述
舆情文本的长度比例, 基于所述长度比例对所述包含在主语角色或宾语角色中的企业简称
进行过滤。
9.一种企业舆情识别装置, 包括:
获取模块, 被 配置成获取舆情文本;
识别模块, 被配置成对所述舆情文本的基本单元进行企业实体识别, 生成所述舆情文
本的基本单元预测标签序列, 其中, 基本单元预测标签用于标注基本单元是否属于企业实
体;
确定模块, 被配置成基于所述基本单元预测标签序列, 确定所述舆情文本关联的企业
实体。
10.根据权利要求9所述的装置, 其中, 所述识别模块进一 步被配置成:
生成所述舆情文本的基本单 元嵌入向量序列;
将所述基本单元嵌入向量序列输入至预先训练的企业实体识别模型, 得到所述基本单
元预测标签序列。
11.根据权利要求10所述的装置, 其中, 所述企业实体识别模型由双向长短期记忆网络
和条件随机场组成, 所述双向长短期记忆网络用于结合上下文预测基本单元 的标签, 所述
条件随机场在句子级别对顺序输出的基本单 元预测标签序列进行线性约束。
12.根据权利要求9 ‑11中任一项所述的装置, 其中, 所述确定模块包括:
获取子模块, 被 配置成基于所述基本单 元预测标签序列, 获取候选企业实体集 合;
过滤子模块, 被配置成对所述候选企业实体集合进行去重处理和低频过滤, 得到所述
舆情文本关联的企业实体。
13.根据权利要求12所述的装置, 其中, 所述获取子模块包括:
提取单元, 被配置成从所述舆情文本 中提取所述基本单元预测标签序列 标注的企业实
体;
查询单元, 被配置成查询所标注的企业实体对应的标识和企业全称, 加入所述候选企
业实体集 合。
14.根据权利要求12或13所述的装置, 其中, 所述获取子模块还 包括:
第一匹配单元, 被配置成将所述舆情文本在企业全称字典树中进行最大匹配, 将匹配
成功的企业全称加入所述候选企业实体集合, 其中, 所述企业全称字典树用于存储企业全
称; 和/或
第二匹配单元, 被配置成将预先收集的企业全称集合中的企业全称划分成多个字段进
行随机组合, 得到组合企业全称集合, 以及将所述舆情文本在所述组合企业全称集合中匹
配, 将匹配成功的组合企业全称加入所述 候选实体集 合。
15.根据权利要求12或13所述的装置, 其中, 所述获取子模块还 包括:
第三匹配单元, 被配置成将所述舆情文本在企业简称字典树中进行最大匹配, 得到匹
配成功的企业简称, 其中, 所述企业简称字典树用于存 储企业简称;
过滤单元, 被配置成对所述匹配成功 的企业简称进行关联度过滤, 将过滤后的企业简
称加入所述 候选实体集 合。权 利 要 求 书 2/3 页
3
CN 115391536 A
3
专利 企业舆情识别方法、装置、设备以及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:26上传分享