团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020150.X (22)申请日 2022.08.24 (71)申请人 竹间智能科技 (上海) 有限公司 地址 200030 上海市徐汇区宜山路70 0号B2 幢楼18层整层 (72)发明人 简仁贤 卢露 吴文杰  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 莎日娜 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/383(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 标签信息确定方法、 装置、 可读存储介质及 电子设备 (57)摘要 本发明提供了标签信息确定方法、 装置、 可 读存储介质及电子设备, 该方法包括: 确定待分 析文本对应的基本篇章单元和基本篇章单元中 的词项; 针对每一词项, 确定词项的词频信息、 在 基本篇章单元中的共现词信息以及出现词项的 基本篇章单元的第一数量信息; 在各个词项中, 确定出词频信息和第一数量信息符合预设高频 词条件的高频词项, 以及符合预设次高频词条件 的次高频词项; 针对每一次高频词项, 确定所述 次高频词项对应的项集, 以出现所述项集的基本 篇章单元的第二数量信息作为支持度计数, 进行 频繁项集挖掘, 确定出目标频繁项集; 基于高频 词项、 高频词项对应的共现词信息以及目标频繁 项集, 确定出待分析文本的标签信息, 该标签信 息的准确度较高。 权利要求书2页 说明书14页 附图3页 CN 115481243 A 2022.12.16 CN 115481243 A 1.一种标签信息确定方法, 其特 征在于, 包括: 确定待分析文本对应的基本篇 章单元和所述基本篇 章单元中的词项; 针对每一词项, 确定所述词项的词频信息、 在所述基本篇章单元中的共现词信息以及 出现所述词项的基本篇 章单元的第一数量信息; 在各个词项中, 确定出所述词频信 息和所述第 一数量信 息符合预设高频词条件的高频 词项, 以及符合预设次高频词条件的次高频词项; 针对每一次高频词项, 确定所述次高频词项对应的项集, 以出现所述项集的基本篇章 单元的第二数量信息作为支持度计数, 进行 频繁项集挖掘, 确定出目标 频繁项集; 基于所述高频词项、 所述高频词项对应的共现词信息以及所述目标频繁项集, 确定出 所述待分析文本的标签信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述针对每一次高频词项, 确定所述次高 频词项对应的项集, 以出现所述项集的基本篇章单元 的第二数量信息作为支持度计数, 进 行频繁项集挖掘, 确定出目标 频繁项集, 包括: 针对每一次高频词项, 基于所述次高频词项和所述次高频词项对应的共现词信息, 确 定所述次高频词项对应的项集, 将出现所述项集的基本篇章单元的第二数量信息作为支持 度计数; 在所述次高频词项的项集中, 确定出 所述支持度计数 大于支持度阈值的频繁项集; 基于预设数值, 在所述频繁项集中确定出目标 频繁项集。 3.根据权利要求2所述的方法, 其特征在于, 所述基于预设数值, 在所述频繁项集中确 定出目标 频繁项集, 包括: 在所述频繁项集中确定出闭频繁项集, 所述闭频繁项集包含的词项数量大于等于2小 于等于预设数值减一; 将包含的词项数量等于所述预设数值的频繁项集以及所述闭频繁项集作为目标频繁 项集。 4.根据权利要求1所述的方法, 其特征在于, 在所述确定待分析文本对应的基本篇章单 元和所述基本篇 章单元中的词项的步骤前, 所述方法还 包括: 对获取到的原 始评论文本进行清洗处 理和聚类处 理, 得到数据聚类集 合; 在所述数据聚类集 合中, 选取 出待分析文本 。 5.根据权利要求1所述的方法, 其特征在于, 所述确定待分析文本对应的基本篇章单元 和所述基本篇 章单元中的词项, 包括: 获取与所述待分析文本相适应的停用词表; 基于预设分割规则和所述停用词表对所述待分析文本进行处理, 得到待分析文本对应 的基本篇 章单元和所述基本篇 章单元中的词项。 6.根据权利要求1所述的方法, 其特征在于, 所述针对每一词项, 确定所述词项的词频 信息、 在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量 信息, 包括: 基于所述基本篇 章单元的标识信息, 确定第一维度; 基于所述基本篇 章单元中的词项, 确定第二维度; 基于所述第一维度、 所述第二维度, 构建二维列联表;权 利 要 求 书 1/2 页 2 CN 115481243 A 2针对每一词项对应的目标第一维度和目标第二维度, 对所述二维列联表进行填充, 确 定填充后的二维列联表; 基于填充后的二维列联表, 确定每一词项的词频信息、 在所述基本篇章单元中的共现 词信息以及出现所述词项的基本篇 章单元的第一数量信息 。 7.根据权利要求1所述的方法, 其特征在于, 所述预设高频词条件包括词频排名在前预 设位, 所述第一数量信息与所述基本篇 章单元数量的比值在第一预设范围; 所述次高频条件包括词频大于2、 且小于排名在前预设位的词频, 所述第 一数量信 息在 第二预设范围。 8.一种标签信息确定装置, 其特 征在于, 包括: 第一确定模块, 用于确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词 项; 第二确定模块, 用于针对每一词项, 确定所述词项的词频信 息、 在所述基本篇章单元中 的共现词信息以及出现所述词项的基本篇 章单元的第一数量信息; 第三确定模块, 用于在各个词项中, 确定出所述词频信息和所述第一数量信息符合预 设高频词条件的高频词项, 以及符合预设次高频词条件的次高频词项; 第四确定模块, 用于针对每一 次高频词项, 确定所述 次高频词项对应的项集, 以出现所 述项集的基本篇章单元 的第二数量信息作为支持度计数, 进行频繁项集挖掘, 确定出目标 频繁项集; 第五确定模块, 用于基于所述高频词项、 所述高频词项对应的共现词信息以及所述目 标频繁项集, 确定出 所述待分析文本的标签信息 。 9.一种计算机可读存储介质, 所述存储介质存储有计算机程序, 所述计算机程序用于 执行上述权利要求1 ‑7任一项所述的标签信息确定方法。 10.一种电子设备, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述指令以实现上述 权利要求1 ‑7任一项所述的标签信息确定方法。权 利 要 求 书 2/2 页 3 CN 115481243 A 3

.PDF文档 专利 标签信息确定方法、装置、可读存储介质及电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 标签信息确定方法、装置、可读存储介质及电子设备 第 1 页 专利 标签信息确定方法、装置、可读存储介质及电子设备 第 2 页 专利 标签信息确定方法、装置、可读存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。