团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211033284.5 (22)申请日 2022.08.26 (71)申请人 广东万丈金数信息技 术股份有限公 司 地址 510000 广东省广州市天河区科韵路 20号九层901房(仅限办公用途) (72)发明人 刘敏 李创林 许东武  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黎扬鹏 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/215(2019.01) G06N 3/04(2006.01) G06K 9/62(2022.01)G06F 40/289(2020.01) (54)发明名称 一种用户标签信息的分类方法、 系统及 介质 (57)摘要 本发明公开了一种用户标签信息的分类方 法、 系统及介质, 方法包括: 获取目标对象的标签 文本; 对所述标签文本进行清洗及序列化处理, 得到词向量矩阵; 将所述词向量矩阵中的各个词 向量依次输入LS TM分类器, 结合训练集进行迭代 分类预测, 得到分类标签信息; 输出保存符合预 设条件的分类标签信息。 本发明通过对标签文本 的清洗及序列化处理, 方便数据的规模化/量化 处理; 进而使用LSTM分类器, 通过训练集进行迭 代分类预测, 能够高效计算输入 标签与模型内标 签匹配度, 进而筛选符合预设条件的分类标签信 息, 提高了基于标签信息的数据挖掘和分析的准 确性, 可广泛应用于信息数据处 理技术领域。 权利要求书2页 说明书7页 附图2页 CN 115470346 A 2022.12.13 CN 115470346 A 1.一种用户标签信息的分类方法, 其特 征在于, 包括: 获取目标对象的标签文本; 对所述标签文本进行清洗及序列化处 理, 得到词向量矩阵; 将所述词向量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集进行迭代分类预 测, 得到分类标签信息; 输出保存符合预设条件的分类标签信息 。 2.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述标签文本包 括第一标签文本和第二标签文本, 所述获取目标对象的标签文本, 包括: 获取目标对象的注册数据中信息标签字段下的第一标签文本和文本描述数据中的第 二标签文本; 通过预设数据表整理汇总所述第一标签文本和所述第二标签文本 。 3.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述对所述标签 文本进行清洗及序列化处 理, 得到词向量矩阵, 包括: 通过正则匹配方式对所述标签文本进行规范化处 理, 清洗所述标签文本; 对清洗完成的标签文本进行分词处 理, 结合加权算法构建得到文本特 征向量集; 通过编解码模型对所述文本特 征向量集进行序列化操作, 得到词向量矩阵。 4.根据权利要求3所述的一种用户标签信 息的分类方法, 其特征在于, 所述对清洗完成 的标签文本进行分词处 理, 结合加权算法构建得到文本特 征向量集, 包括: 通过jieba分词器对清洗完成的标签文本进行分词处理, 结合TF ‑IDF算法构建得到文 本特征向量集。 5.根据权利要求3所述的一种用户标签信 息的分类方法, 其特征在于, 所述编解码模型 包括编码器和 解码器, 所述通过编解码模型对所述文本特征向量集进行序列化操作, 得到 词向量矩阵, 包括: 通过所述编码器和所述 解码器对所述文本特 征向量集进行编解码处 理; 通过seq2seq嵌入方法对所述编解码处理后的文本特征向量集进行迭代循环, 得到词 向量矩阵。 6.根据权利要求1所述的一种用户标签信 息的分类方法, 其特征在于, 所述将所述词向 量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集进行迭代分类预测, 得到分类标 签信息, 包括: 以所述词向量矩阵中的第一个词向量作为当前词向量; 输入当前词向量至LSTM分类器, 通过所述LSTM分类器对当前词向量进行分类预测, 得 到分类标签信息; 通过余弦相似度计算原理, 计算得到所述分类标签信息中各个标签的相关系数; 将相关系数小于预设阈值的标签放入训练集训练得到训练词向量; 将所述训练词向量嵌入下一个词向量做为当前词向量, 然后返回所述输入当前词向量 至LSTM分类器, 通过所述LSTM分类器对当前词向量进行分类预测, 得到分类标签信息这一 步骤, 直至所述词向量矩阵完成分类预测。 7.根据权利要求6所述的一种用户标签信 息的分类方法, 其特征在于, 所述输出保存符 合预设条件的分类标签信息, 包括:权 利 要 求 书 1/2 页 2 CN 115470346 A 2输出相关系数 大于预设阈值的标签数据至业 务对象; 或, 保存相关系数 大于预设阈值的标签数据至标签库。 8.一种用户标签信息的分类系统, 其特 征在于, 包括: 第一模块, 用于获取目标对象的标签文本; 第二模块, 用于对所述标签文本进行清洗及序列化处 理, 得到词向量矩阵; 第三模块, 用于将所述词向量矩阵中的各个词向量依次输入LSTM分类器, 结合训练集 进行迭代分类预测, 得到分类标签信息; 第四模块, 用于 输出保存符合预设条件的分类标签信息 。 9.一种电子设备, 包括处 理器以及存 储器; 所述存储器用于存 储程序; 所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 所述程序被处 理器执行实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115470346 A 3

.PDF文档 专利 一种用户标签信息的分类方法、系统及介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用户标签信息的分类方法、系统及介质 第 1 页 专利 一种用户标签信息的分类方法、系统及介质 第 2 页 专利 一种用户标签信息的分类方法、系统及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。