团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020150.X (22)申请日 2022.08.24 (71)申请人 竹间智能科技 (上海) 有限公司 地址 200030 上海市徐汇区宜山路70 0号B2 幢楼18层整层 (72)发明人 简仁贤 卢露 吴文杰 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 莎日娜 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/383(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 标签信息确定方法、 装置、 可读存储介质及 电子设备 (57)摘要 本发明提供了标签信息确定方法、 装置、 可 读存储介质及电子设备, 该方法包括: 确定待分 析文本对应的基本篇章单元和基本篇章单元中 的词项; 针对每一词项, 确定词项的词频信息、 在 基本篇章单元中的共现词信息以及出现词项的 基本篇章单元的第一数量信息; 在各个词项中, 确定出词频信息和第一数量信息符合预设高频 词条件的高频词项, 以及符合预设次高频词条件 的次高频词项; 针对每一次高频词项, 确定所述 次高频词项对应的项集, 以出现所述项集的基本 篇章单元的第二数量信息作为支持度计数, 进行 频繁项集挖掘, 确定出目标频繁项集; 基于高频 词项、 高频词项对应的共现词信息以及目标频繁 项集, 确定出待分析文本的标签信息, 该标签信 息的准确度较高。 权利要求书2页 说明书14页 附图3页 CN 115481243 A 2022.12.16 CN 115481243 A 1.一种标签信息确定方法, 其特 征在于, 包括: 确定待分析文本对应的基本篇 章单元和所述基本篇 章单元中的词项; 针对每一词项, 确定所述词项的词频信息、 在所述基本篇章单元中的共现词信息以及 出现所述词项的基本篇 章单元的第一数量信息; 在各个词项中, 确定出所述词频信 息和所述第 一数量信 息符合预设高频词条件的高频 词项, 以及符合预设次高频词条件的次高频词项; 针对每一次高频词项, 确定所述次高频词项对应的项集, 以出现所述项集的基本篇章 单元的第二数量信息作为支持度计数, 进行 频繁项集挖掘, 确定出目标 频繁项集; 基于所述高频词项、 所述高频词项对应的共现词信息以及所述目标频繁项集, 确定出 所述待分析文本的标签信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述针对每一次高频词项, 确定所述次高 频词项对应的项集, 以出现所述项集的基本篇章单元 的第二数量信息作为支持度计数, 进 行频繁项集挖掘, 确定出目标 频繁项集, 包括: 针对每一次高频词项, 基于所述次高频词项和所述次高频词项对应的共现词信息, 确 定所述次高频词项对应的项集, 将出现所述项集的基本篇章单元的第二数量信息作为支持 度计数; 在所述次高频词项的项集中, 确定出 所述支持度计数 大于支持度阈值的频繁项集; 基于预设数值, 在所述频繁项集中确定出目标 频繁项集。 3.根据权利要求2所述的方法, 其特征在于, 所述基于预设数值, 在所述频繁项集中确 定出目标 频繁项集, 包括: 在所述频繁项集中确定出闭频繁项集, 所述闭频繁项集包含的词项数量大于等于2小 于等于预设数值减一; 将包含的词项数量等于所述预设数值的频繁项集以及所述闭频繁项集作为目标频繁 项集。 4.根据权利要求1所述的方法, 其特征在于, 在所述确定待分析文本对应的基本篇章单 元和所述基本篇 章单元中的词项的步骤前, 所述方法还 包括: 对获取到的原 始评论文本进行清洗处 理和聚类处 理, 得到数据聚类集 合; 在所述数据聚类集 合中, 选取 出待分析文本 。 5.根据权利要求1所述的方法, 其特征在于, 所述确定待分析文本对应的基本篇章单元 和所述基本篇 章单元中的词项, 包括: 获取与所述待分析文本相适应的停用词表; 基于预设分割规则和所述停用词表对所述待分析文本进行处理, 得到待分析文本对应 的基本篇 章单元和所述基本篇 章单元中的词项。 6.根据权利要求1所述的方法, 其特征在于, 所述针对每一词项, 确定所述词项的词频 信息、 在所述基本篇章单元中的共现词信息以及出现所述词项的基本篇章单元的第一数量 信息, 包括: 基于所述基本篇 章单元的标识信息, 确定第一维度; 基于所述基本篇 章单元中的词项, 确定第二维度; 基于所述第一维度、 所述第二维度, 构建二维列联表;权 利 要 求 书 1/2 页 2 CN 115481243 A 2针对每一词项对应的目标第一维度和目标第二维度, 对所述二维列联表进行填充, 确 定填充后的二维列联表; 基于填充后的二维列联表, 确定每一词项的词频信息、 在所述基本篇章单元中的共现 词信息以及出现所述词项的基本篇 章单元的第一数量信息 。 7.根据权利要求1所述的方法, 其特征在于, 所述预设高频词条件包括词频排名在前预 设位, 所述第一数量信息与所述基本篇 章单元数量的比值在第一预设范围; 所述次高频条件包括词频大于2、 且小于排名在前预设位的词频, 所述第 一数量信 息在 第二预设范围。 8.一种标签信息确定装置, 其特 征在于, 包括: 第一确定模块, 用于确定待分析文本对应的基本篇章单元和所述基本篇章单元中的词 项; 第二确定模块, 用于针对每一词项, 确定所述词项的词频信 息、 在所述基本篇章单元中 的共现词信息以及出现所述词项的基本篇 章单元的第一数量信息; 第三确定模块, 用于在各个词项中, 确定出所述词频信息和所述第一数量信息符合预 设高频词条件的高频词项, 以及符合预设次高频词条件的次高频词项; 第四确定模块, 用于针对每一 次高频词项, 确定所述 次高频词项对应的项集, 以出现所 述项集的基本篇章单元 的第二数量信息作为支持度计数, 进行频繁项集挖掘, 确定出目标 频繁项集; 第五确定模块, 用于基于所述高频词项、 所述高频词项对应的共现词信息以及所述目 标频繁项集, 确定出 所述待分析文本的标签信息 。 9.一种计算机可读存储介质, 所述存储介质存储有计算机程序, 所述计算机程序用于 执行上述权利要求1 ‑7任一项所述的标签信息确定方法。 10.一种电子设备, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述指令以实现上述 权利要求1 ‑7任一项所述的标签信息确定方法。权 利 要 求 书 2/2 页 3 CN 115481243 A 3
专利 标签信息确定方法、装置、可读存储介质及电子设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:15:39
上传分享
举报
下载
原文档
(710.0 KB)
分享
友情链接
世平公司 - 数据治理与数据安全防护.pdf
GB-T 35275-2017 信息安全技术 SM2密码算法加密签名消息语法规范.pdf
GB 30000.20-2013 化学品分类和标签规范 第20部分:严重眼损伤-眼刺激.pdf
GB-T 38664.2-2020 信息技术 大数据 政务数据开放共享 第2部分:基本要求.pdf
T-WJQMA 02—2023 甜瓜抗白粉病鉴定技术规程.pdf
GB-T 8766-2013 单水氢氧化锂.pdf
SN-T 5544-2022 麻头砂白蚁检疫鉴定方法.pdf
GB-T 37091-2018_信息安全技术 安全办公U盘安全技术要求.pdf
GB-T 39786-2021 信息安全技术 信息系统密码应用基本要求.pdf
GB-T 20252-2014 钴酸锂.pdf
GB-T 43697-2024 数据安全技术 数据分类分级规则 报批稿.pdf
GB-T 36621-2018 智慧城市 信息技术运营指南.pdf
GB-T 27804-2011 氟化钙.pdf
GB-T 32169.3-2015 政务服务中心运行规范 第3部分:窗口服务提供要求.pdf
GB-T 39633-2020 协作机器人用一体式伺服电动机系统通用规范.pdf
GB-T 33745-2017 物联网 术语.pdf
GB-T 5599-2019 机车车辆动力学性能评定及试验鉴定规范.pdf
GB-T 42147-2022 政府网站网页电子文件元数据.pdf
思度安全-DSMM-013 数据加密管理规范V1.0.pdf
GB-T 42433-2023 珠宝玉石鉴定 红外光谱法.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(710.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。