团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211254591.6 (22)申请日 2022.10.13 (71)申请人 厦门安胜网络科技有限公司 地址 361008 福建省厦门市集美区软件园 三期诚毅大街3 58号1502-5单元 申请人 国投智能科技有限公司 (72)发明人 陈贵民 王赢 罗华辉 张荣  魏丽珍 蔡文辉 叶青  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 陈远洋 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 40/205(2020.01)G06F 40/279(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于NLP算法模 型的自动数据分类 分级 方法及系统 (57)摘要 本申请提出了一种基于NLP算法模 型的自动 数据分类分级方法及系统, 该方法包括以下步 骤: S1、 确定标准元素, 并且根据分类分级标准对 标准元素配置所属的分类目录; S2、 对标准元素 添加识别规则, 设置每条识别规则的可信度和优 先级, 识别规则包括传统算法的识别规则和NLP 算法的识别规则; S3、 基于识别规则训练NLP模 型, 根据识别规则的优先级从高到低依次执行匹 配逻辑, 对预处理数据进行NLP算法匹配或者传 统算法匹配, 获得多个匹配结果; S4、 从多个匹配 结果中找出匹配度最高的结果所对应的标准元 素, 并且对匹配度最高的结果所对应的标准元素 标记分类标签。 通过NLP算法和传统算法能够自 动进行分类分级, 取代人工分类, 实现高效、 灵 活、 智能地分类分级。 权利要求书2页 说明书8页 附图4页 CN 115544256 A 2022.12.30 CN 115544256 A 1.一种基于N LP算法模型的自动数据分类分级方法, 其特 征在于, 包括以下步骤: S1、 确定标准元 素, 并且根据分类分级标准对所述标准元 素配置所属的分类目录; S2、 对所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别规 则包括传统算法的识别规则和N LP算法的识别规则; S3、 基于所述识别规则训练NLP模型, 根据所述识别规则的优先级从高到低依次执行匹 配逻辑, 对预处 理数据进行N LP算法匹配或者传统算法匹配, 获得多个匹配结果; 以及 S4、 从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素, 并且对所述匹 配度最高的结果所对应的标准元 素标记分类标签。 2.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S3中, 基于所述识别规则训练N LP模型具体包括以下子步骤: S31、 将所述预处 理数据的字段名全部转 为小写字母, 并且去掉特殊符号和数字; S32、 根据空格和标点符号拆分, 对步骤S31预处 理后的数据进行拆分; S33、 通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是 英文; S34、 对步骤S32处 理后的数据进行分词, 获得多种组合结果; S35、 根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述 组合结果, 最终 获得匹配结果。 3.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S2中, 传统算法的识别规则包括: 基于内容匹配、 字段注释匹配、 字段名的精确匹配、 字 段名的模糊匹配、 前缀匹配、 后缀匹配、 正则匹配。 4.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S2中, 设置每条识别规则的可信度, 所述可信度被设置为一个数值, 所述可信度 表示所 述识别规则可以依赖的程度, 影响所述识别规则的匹配度。 5.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S2中, 设置每条识别规则的优 先级, 所述优 先级被设置为一个数值, 数值越 大优先级越 高, 按照优先级从高到低依次匹配执 行。 6.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S2中, 对 所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别 规则包括传统算法的识别规则和N LP算法的识别规则, 包括: S211、 添加传统算法的识别规则R 1和NLP算法的识别规则R2; S212、 设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”, 设置所述传统算 法的识别规则R1的匹配方法为 “正则匹配 ”; 设置NLP算法的识别规则R2的匹配方法为 “NLP 匹配”; 以及 S213、 分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先 级, 并且所述传统算法的识别规则R 1的优先级大于N LP算法的识别规则R2的优先级。 7.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在 步骤S2中, 对 所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别 规则包括传统算法的识别规则和N LP算法的识别规则, 包括: S221、 添加传统算法的识别规则R 1和NLP算法的识别规则R2;权 利 要 求 书 1/2 页 2 CN 115544256 A 2S222、 设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”, 设置所述传统算 法的识别规则R1的匹配方法为 “正则匹配 ”; 设置NLP算法的识别规则R2的匹配方法为 “NLP 匹配”; 以及 S223、 分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先 级, 并且所述传统算法的识别规则R 1的优先级 小于NLP算法的识别规则R2的优先级。 8.一种基于N LP算法模型的自动数据分类分级系统, 其特 征在于, 所述系统包括: 确定标准元素模块, 用于确定标准元素, 并且根据分类分级标准对所述标准元素配置 所属的分类目录; 添加识别规则模块, 用于对所述标准元素添加识别规则, 设置每条识别规则的可信度 和优先级, 所述识别规则包括传统算法的识别规则和N LP算法的识别规则; 匹配模块, 基于所述识别规则训练NLP模型, 根据所述识别规则的优先级从高到低依次 执行匹配逻辑, 对预处理数据进行NLP算法匹配或者传统算法匹配, 获得多个匹配结果; 以 及 标记模块, 从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素, 并且对 所述匹配度最高的结果所对应的标准元 素标记分类标签。 9.根据权利要求8所述的基于NLP算法模型的自动数据分类分级系统, 其特征在于, 在 匹配模块中, 基于所述识别规则训练N LP模型具体包括以下子步骤: S31、 将所述预处 理数据的字段名全部转 为小写字母, 并且去掉特殊符号和数字; S32、 根据空格和标点符号拆分, 对步骤S31预处 理后的数据进行拆分; S33、 通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是 英文; S34、 对步骤S32处 理后的数据进行分词, 获得多种组合结果; S35、 根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述 组合结果, 最终 获得匹配结果。 10.一种计算机可读存储介质, 所述介质中存储有计算机程序, 在所述计算机程序被处 理器执行时, 实施如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115544256 A 3

.PDF文档 专利 一种基于NLP算法模型的自动数据分类分级方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP算法模型的自动数据分类分级方法及系统 第 1 页 专利 一种基于NLP算法模型的自动数据分类分级方法及系统 第 2 页 专利 一种基于NLP算法模型的自动数据分类分级方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:10:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。