团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211033284.5 (22)申请日 2022.08.26 (71)申请人 广东万丈金数信息技 术股份有限公 司 地址 510000 广东省广州市天河区科韵路 20号九层901房(仅限办公用途) (72)发明人 刘敏 李创林 许东武 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黎扬鹏 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/215(2019.01) G06N 3/04(2006.01) G06K 9/62(2022.01)G06F 40/289(2020.01) (54)发明名称 一种用户标签信息的分类方法、 系统及 介质 (57)摘要 本发明公开了一种用户标签信息的分类方 法、 系统及介质, 方法包括: 获取目标对象的标签 文本; 对所述标签文本进行清洗及序列化处理, 得到词向量矩阵; 将所述词向量矩阵中的各个词 向量依次输入LS TM分类器, 结合训练集进行迭代 分类预测, 得到分类标签信息; 输出保存符合预 设条件的分类标签信息。 本发明通过对标签文本 的清洗及序列化处理, 方便数据的规模化/量化 处理; 进而使用LSTM分类器, 通过训练集进行迭 代分类预测, 能够高效计算输入 标签与模型内标 签匹配度, 进而筛选符合预设条件的分类标签信 息, 提高了基于标签信息的数据挖掘和分析的准 确性, 可广泛应用于信息数据处 理技术领域。 权利要求书2页 说明书7页 附图2页 CN 115470346 A 2022.12.13 CN 115470346 A 1.一种用户标签信息的分类方法, 其特 征在于, 包括: 获取目标对象的标签文本; 对所述标签文本进行清洗及序列化处 理, 得到词向量矩阵; 将所述词向量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集进行迭代分类预 测, 得到分类标签信息; 输出保存符合预设条件的分类标签信息 。 2.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述标签文本包 括第一标签文本和第二标签文本, 所述获取目标对象的标签文本, 包括: 获取目标对象的注册数据中信息标签字段下的第一标签文本和文本描述数据中的第 二标签文本; 通过预设数据表整理汇总所述第一标签文本和所述第二标签文本 。 3.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述对所述标签 文本进行清洗及序列化处 理, 得到词向量矩阵, 包括: 通过正则匹配方式对所述标签文本进行规范化处 理, 清洗所述标签文本; 对清洗完成的标签文本进行分词处 理, 结合加权算法构建得到文本特 征向量集; 通过编解码模型对所述文本特 征向量集进行序列化操作, 得到词向量矩阵。 4.根据权利要求3所述的一种用户标签信 息的分类方法, 其特征在于, 所述对清洗完成 的标签文本进行分词处 理, 结合加权算法构建得到文本特 征向量集, 包括: 通过jieba分词器对清洗完成的标签文本进行分词处理, 结合TF ‑IDF算法构建得到文 本特征向量集。 5.根据权利要求3所述的一种用户标签信 息的分类方法, 其特征在于, 所述编解码模型 包括编码器和 解码器, 所述通过编解码模型对所述文本特征向量集进行序列化操作, 得到 词向量矩阵, 包括: 通过所述编码器和所述 解码器对所述文本特 征向量集进行编解码处 理; 通过seq2seq嵌入方法对所述编解码处理后的文本特征向量集进行迭代循环, 得到词 向量矩阵。 6.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述将所述词向 量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集进行迭代分类预测, 得到分类标 签信息, 包括: 以所述词向量矩阵中的第一个词向量作为当前词向量; 输入当前词向量至LSTM分类器, 通过所述LSTM分类器对当前词向量进行分类预测, 得 到分类标签信息; 通过余弦相似度计算原理, 计算得到所述分类标签信息中各个标签的相关系数; 将相关系数小于预设阈值的标签放入训练集训练得到训练词向量; 将所述训练词向量嵌入下一个词向量做为当前词向量, 然后返回所述输入当前词向量 至LSTM分类器, 通过所述LSTM分类器对当前词向量进行分类预测, 得到分类标签信息这一 步骤, 直至所述词向量矩阵完成分类预测。 7.根据权利要求6所述的一种用户标签信 息的分类方法, 其特征在于, 所述输出保存符 合预设条件的分类标签信息, 包括:权 利 要 求 书 1/2 页 2 CN 115470346 A 2输出相关系数 大于预设阈值的标签数据至业 务对象; 或, 保存相关系数 大于预设阈值的标签数据至标签库。 8.一种用户标签信息的分类系统, 其特 征在于, 包括: 第一模块, 用于获取目标对象的标签文本; 第二模块, 用于对所述标签文本进行清洗及序列化处 理, 得到词向量矩阵; 第三模块, 用于将所述词向量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集 进行迭代分类预测, 得到分类标签信息; 第四模块, 用于 输出保存符合预设条件的分类标签信息 。 9.一种电子设备, 包括处 理器以及存 储器; 所述存储器用于存 储程序; 所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 所述程序被处 理器执行实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115470346 A 3
专利 一种用户标签信息的分类方法、系统及介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:12:44
上传分享
举报
下载
原文档
(456.8 KB)
分享
友情链接
GB-T 32169.2-2015 政务服务中心运行规范 第2部分:进驻要求.pdf
GB-T 4625-2022 螺钉和螺母的装配工具 命名法.pdf
GB-T 23336-2022 半挂车通用技术条件.pdf
GB-T 37931-2019 信息安全技术 Web应用安全检测系统安全技术要求和测试评价方法.pdf
民航 MH-T 6016-2017 航空食品车.pdf
数字安全产业大数据白皮书(2022年).pdf
GB-T 31014-2014 声学 水声目标强度测量实验室方法.pdf
GB-T 39440-2020 公共信用信息资源目录编制指南.pdf
GB-T 42461-2023 信息安全技术 网络安全服务成本度量指南.pdf
GB-T 34978-2017 信息安全技术 移动智能终端个人信息保护技术要求.pdf
GB-T 15102-2017 浸渍胶膜纸饰面纤维板和刨花板.pdf
T-GCHA 1.4—2018 定制家居产品 人造板定制衣柜 第4部分:安装验收规范.pdf
DB44-T 297-2019 温泉服务 温泉沐浴服务要求 广东省.pdf
等保二级-安全技术-网络安全.doc
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
DB37-T 4203.3—2020 林业碳汇计量监测体系建设规范 第3部分:森林碳储量计算 山东省.pdf
T-SZSMDA 005—2023 广角数码小儿视网膜成像系统眼部彩照采集规范.pdf
GB-T 35286-2017 信息安全技术 低速无线个域网空口安全测试规范.pdf
DB31-T 1242-2020 数据中心节能设计规范 上海市.pdf
GB-T 25861-2023 蒸气压缩循环水源高温热泵机组.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(456.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。