(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211254591.6
(22)申请日 2022.10.13
(71)申请人 厦门安胜网络科技有限公司
地址 361008 福建省厦门市集美区软件园
三期诚毅大街3 58号1502-5单元
申请人 国投智能科技有限公司
(72)发明人 陈贵民 王赢 罗华辉 张荣
魏丽珍 蔡文辉 叶青
(74)专利代理 机构 厦门福贝知识产权代理事务
所(普通合伙) 35235
专利代理师 陈远洋
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/335(2019.01)
G06F 40/205(2020.01)G06F 40/279(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于NLP算法模 型的自动数据分类 分级
方法及系统
(57)摘要
本申请提出了一种基于NLP算法模 型的自动
数据分类分级方法及系统, 该方法包括以下步
骤: S1、 确定标准元素, 并且根据分类分级标准对
标准元素配置所属的分类目录; S2、 对标准元素
添加识别规则, 设置每条识别规则的可信度和优
先级, 识别规则包括传统算法的识别规则和NLP
算法的识别规则; S3、 基于识别规则训练NLP模
型, 根据识别规则的优先级从高到低依次执行匹
配逻辑, 对预处理数据进行NLP算法匹配或者传
统算法匹配, 获得多个匹配结果; S4、 从多个匹配
结果中找出匹配度最高的结果所对应的标准元
素, 并且对匹配度最高的结果所对应的标准元素
标记分类标签。 通过NLP算法和传统算法能够自
动进行分类分级, 取代人工分类, 实现高效、 灵
活、 智能地分类分级。
权利要求书2页 说明书8页 附图4页
CN 115544256 A
2022.12.30
CN 115544256 A
1.一种基于N LP算法模型的自动数据分类分级方法, 其特 征在于, 包括以下步骤:
S1、 确定标准元 素, 并且根据分类分级标准对所述标准元 素配置所属的分类目录;
S2、 对所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别规
则包括传统算法的识别规则和N LP算法的识别规则;
S3、 基于所述识别规则训练NLP模型, 根据所述识别规则的优先级从高到低依次执行匹
配逻辑, 对预处 理数据进行N LP算法匹配或者传统算法匹配, 获得多个匹配结果; 以及
S4、 从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素, 并且对所述匹
配度最高的结果所对应的标准元 素标记分类标签。
2.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S3中, 基于所述识别规则训练N LP模型具体包括以下子步骤:
S31、 将所述预处 理数据的字段名全部转 为小写字母, 并且去掉特殊符号和数字;
S32、 根据空格和标点符号拆分, 对步骤S31预处 理后的数据进行拆分;
S33、 通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是
英文;
S34、 对步骤S32处 理后的数据进行分词, 获得多种组合结果;
S35、 根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述
组合结果, 最终 获得匹配结果。
3.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S2中, 传统算法的识别规则包括: 基于内容匹配、 字段注释匹配、 字段名的精确匹配、 字
段名的模糊匹配、 前缀匹配、 后缀匹配、 正则匹配。
4.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S2中, 设置每条识别规则的可信度, 所述可信度被设置为一个数值, 所述可信度 表示所
述识别规则可以依赖的程度, 影响所述识别规则的匹配度。
5.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S2中, 设置每条识别规则的优 先级, 所述优 先级被设置为一个数值, 数值越 大优先级越
高, 按照优先级从高到低依次匹配执 行。
6.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S2中, 对 所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别
规则包括传统算法的识别规则和N LP算法的识别规则, 包括:
S211、 添加传统算法的识别规则R 1和NLP算法的识别规则R2;
S212、 设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”, 设置所述传统算
法的识别规则R1的匹配方法为 “正则匹配 ”; 设置NLP算法的识别规则R2的匹配方法为 “NLP
匹配”; 以及
S213、 分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先
级, 并且所述传统算法的识别规则R 1的优先级大于N LP算法的识别规则R2的优先级。
7.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法, 其特征在于, 在
步骤S2中, 对 所述标准元素添加识别规则, 设置每条识别规则的可信度和优先级, 所述识别
规则包括传统算法的识别规则和N LP算法的识别规则, 包括:
S221、 添加传统算法的识别规则R 1和NLP算法的识别规则R2;权 利 要 求 书 1/2 页
2
CN 115544256 A
2S222、 设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”, 设置所述传统算
法的识别规则R1的匹配方法为 “正则匹配 ”; 设置NLP算法的识别规则R2的匹配方法为 “NLP
匹配”; 以及
S223、 分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先
级, 并且所述传统算法的识别规则R 1的优先级 小于NLP算法的识别规则R2的优先级。
8.一种基于N LP算法模型的自动数据分类分级系统, 其特 征在于, 所述系统包括:
确定标准元素模块, 用于确定标准元素, 并且根据分类分级标准对所述标准元素配置
所属的分类目录;
添加识别规则模块, 用于对所述标准元素添加识别规则, 设置每条识别规则的可信度
和优先级, 所述识别规则包括传统算法的识别规则和N LP算法的识别规则;
匹配模块, 基于所述识别规则训练NLP模型, 根据所述识别规则的优先级从高到低依次
执行匹配逻辑, 对预处理数据进行NLP算法匹配或者传统算法匹配, 获得多个匹配结果; 以
及
标记模块, 从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素, 并且对
所述匹配度最高的结果所对应的标准元 素标记分类标签。
9.根据权利要求8所述的基于NLP算法模型的自动数据分类分级系统, 其特征在于, 在
匹配模块中, 基于所述识别规则训练N LP模型具体包括以下子步骤:
S31、 将所述预处 理数据的字段名全部转 为小写字母, 并且去掉特殊符号和数字;
S32、 根据空格和标点符号拆分, 对步骤S31预处 理后的数据进行拆分;
S33、 通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是
英文;
S34、 对步骤S32处 理后的数据进行分词, 获得多种组合结果;
S35、 根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述
组合结果, 最终 获得匹配结果。
10.一种计算机可读存储介质, 所述介质中存储有计算机程序, 在所述计算机程序被处
理器执行时, 实施如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115544256 A
3
专利 一种基于NLP算法模型的自动数据分类分级方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:10:43上传分享