团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211068042.X (22)申请日 2022.09.02 (71)申请人 安徽商信政通信息技 术股份有限公 司 地址 230000 安徽省合肥市高新区望江西 路800号创新产业园一期A4幢5 01 (72)发明人 许建兵 费维进 李军 殷会娟  (74)专利代理 机构 北京知联天下知识产权代理 事务所(普通 合伙) 11594 专利代理师 张迎新 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 一种智能的信息上报相似内容合并方法及 系统 (57)摘要 本发明涉及一种智能的信息上报相似内容 合并方法及系统, 属于信息合并技术领域, 所述 方法包括: 从平台中获取信息并提取每个信息的 信息内容; 从所述信息内容中提取信息关键特 征; 根据所述信息关键特征对信息进行相似度比 对; 对所述相似度达到或者超 过限制的信息进行 合并。 所述系统包括: 获取模块, 用于从平台中获 取信息并提取每个信息的信息内容; 提取模块, 用于从所述信息内容中提取信息关键特征; 比对 模块, 用于根据所述信息关键特征对信息进行相 似度比对; 合并模块, 用于对所述相似度达到或 者超过限制的信息进行合并。 本发 明不需要在前 期花费较大的工程量去拟合, 操作步骤简单, 而 且消耗的时间更短, 效率更高。 权利要求书3页 说明书8页 附图7页 CN 115146065 A 2022.10.04 CN 115146065 A 1.一种智能的信息上报相似内容 合并方法, 其特 征在于, 所述方法包括: 从平台中获取信息并提取每 个信息的信息内容; 从所述信息内容中提取信息关键特 征; 根据所述信息关键特 征对信息进行相似度比对; 对所述相似度达 到或者超过限制的信息进行合并。 2.根据权利要求1所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 所述信息内容包括标题、 上报时间、 地 点、 信息来源、 信息描述和附件; 其中, 所述信息描述包括人名、 类型和动作。 3.根据权利要求1或2所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 提取所述信息关键特 征包括以下步骤: 对所述信息内容的数据进行 数据预处 理; 对预处理后的所述数据进行 数据清洗; 对清洗后的所述数据中的关键特 征进行特征识别; 对识别出的特 征进行加权处 理。 4.根据权利要求3所述的一种智能的信 息上报相似内容合并方法, 其特征在于, 对所述 信息内容的数据进行 数据预处 理包括: 对所述信息内容的文字格式进行同一和去除所述信息内容中的干扰性符号。 5.根据权利要求3所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 所述数据清洗的方式包括 正则方式; 所述正则方式为去除所述数据中的空格和特殊符号。 6.根据权利要求5所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 所述数据中的关键特 征包括类别、 人名、 地 点、 时间和动作。 7.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述类别进行 特征提取包括输出 所述信息内容所归属的类别。 8.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述类别进行 特征提取所采用的算法为D PCNN算法; 所述DPCNN算法包括对所述数据进行 标签映射和对所述数据进行离线训练。 9.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述人名进行 特征提取包括: 对所述数据中的人名进行识别; 对识别出的人名结果进行去重并进行合并处 理。 10.根据权利要求9所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述人名进行识别的方式包括 规则匹配和lac算法识别; 其中, 所述 规则匹配包括快速 搜索出出现在系统常用业 务人名清单中的人名; 其中, 所述系统常用业 务人名清单根据以往平台上报的信息制定; 所述lac算法识别包括对所述数据进行文字切分, 输出人名识别标注和人名切词词性, 然后根据切分输出的结果整理出 人名。 11.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述时间进行 特征提取包括:权 利 要 求 书 1/3 页 2 CN 115146065 A 2定义提取时间规则; 根据所述 提取时间规则对所述数据中的内容进行匹配。 12.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述动作进行 特征提取包括搜索出 所述数据中出现在动作信息表中的动作; 所述动作信息表根据以往平台上报的信息制定 。 13.根据权利要求6所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对提取出的特征进行加权处理包括对类别、 人名、 地点、 时间和动作进行特征词向量 化。 14.根据权利要求1所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述信息进行相似度比对 采用fais s算法, 所述fais s算法包括: 对所述信息人工整理成待上报信息集 合; 对所述待上报信息集 合中的信息进行fais s训练; 对faiss训练后的数据构 建faiss数据库, 并为数据库中的信息的关键特征的向量设置 标签; 根据待上报的未处理的所述信息的关键特征在已经训练好的faiss中查询出最近的 TOPK条关键特 征的向量, 其中TOPK的取值范围为 正整数; 返回前TOPK的距离最近的已经处 理好的待上报信息; 依次对TOPK的关键特 征的向量进行相似度计算; 返回相似度超过限制的关键特 征的向量以及向量对应的标签。 15.根据权利要求14所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 计算所述相似度运用JAC CARD系数算法, 所述JAC CARD系数算法的公式如下: ; 其中, A、 B为两个不同的待上报信息集 合。 16.根据权利要求1所述的一种智能的信息上报相似内容 合并方法, 其特 征在于, 对所述相似度超过限制的信息进行合并的方式包括人工选择审核信息归并和智能化 归并; 其中, 进行 所述智能化归并时需要根据相似度的值; 当相似度达到或者超过限制时, 对信息进行自动合并, 并根据设置规则自动提取信息 上报的核心元 素; 当相似度未达 到限制时, 所述信息分开上报。 17.一种智能的信息上报相似内容 合并系统, 其特 征在于, 所述系统包括: 获取模块, 用于从平台 中获取信息并提取每 个信息的信息内容; 提取模块, 用于从所述信息内容中提取信息关键特 征; 比对模块, 用于根据所述信息关键特 征对信息进行相似度比对; 合并模块, 用于对所述相似度达 到或者超过限制的信息进行合并。 18.根据权利要求17所述的一种智能的信 息上报相似内容合并系统, 其特征在于, 提取 模块, 用于从所述信息内容中提取信息关键特 征, 包括:权 利 要 求 书 2/3 页 3 CN 115146065 A 3

.PDF文档 专利 一种智能的信息上报相似内容合并方法及系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能的信息上报相似内容合并方法及系统 第 1 页 专利 一种智能的信息上报相似内容合并方法及系统 第 2 页 专利 一种智能的信息上报相似内容合并方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。