专利 一种基于NLP算法模型的自动数据分类分级方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211254591.6 (22)申请日 2022.10.13 (71)申请人厦门安胜网络科技有限公司地址 361008 福建省厦门市集美区软件园三期诚毅大街3 58号1502-5单元申请人国投智能科技有限公司 (72)发明人陈贵民　王赢　罗华辉　张荣　魏丽珍　蔡文辉　叶青　 (74)专利代理机构厦门福贝知识产权代理事务所(普通合伙) 35235 专利代理师陈远洋 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06F 40/205(2020.01)G06F 40/279(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于NLP算法模型的自动数据分类分级方法及系统 (57)摘要本申请提出了一种基于NLP算法模型的自动数据分类分级方法及系统，该方法包括以下步骤： S1、确定标准元素，并且根据分类分级标准对标准元素配置所属的分类目录； S2、对标准元素添加识别规则，设置每条识别规则的可信度和优先级，识别规则包括传统算法的识别规则和NLP 算法的识别规则； S3、基于识别规则训练NLP模型，根据识别规则的优先级从高到低依次执行匹配逻辑，对预处理数据进行NLP算法匹配或者传统算法匹配，获得多个匹配结果； S4、从多个匹配结果中找出匹配度最高的结果所对应的标准元素，并且对匹配度最高的结果所对应的标准元素标记分类标签。通过NLP算法和传统算法能够自动进行分类分级，取代人工分类，实现高效、灵活、智能地分类分级。权利要求书2页说明书8页附图4页 CN 115544256 A 2022.12.30 CN 115544256 A 1.一种基于N LP算法模型的自动数据分类分级方法，其特征在于，包括以下步骤： S1、确定标准元素，并且根据分类分级标准对所述标准元素配置所属的分类目录； S2、对所述标准元素添加识别规则，设置每条识别规则的可信度和优先级，所述识别规则包括传统算法的识别规则和N LP算法的识别规则； S3、基于所述识别规则训练NLP模型，根据所述识别规则的优先级从高到低依次执行匹配逻辑，对预处理数据进行N LP算法匹配或者传统算法匹配，获得多个匹配结果；以及 S4、从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素，并且对所述匹配度最高的结果所对应的标准元素标记分类标签。 2.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S3中，基于所述识别规则训练N LP模型具体包括以下子步骤： S31、将所述预处理数据的字段名全部转为小写字母，并且去掉特殊符号和数字； S32、根据空格和标点符号拆分，对步骤S31预处理后的数据进行拆分； S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文； S34、对步骤S32处理后的数据进行分词，获得多种组合结果； S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述组合结果，最终获得匹配结果。 3.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S2中，传统算法的识别规则包括：基于内容匹配、字段注释匹配、字段名的精确匹配、字段名的模糊匹配、前缀匹配、后缀匹配、正则匹配。 4.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S2中，设置每条识别规则的可信度，所述可信度被设置为一个数值，所述可信度表示所述识别规则可以依赖的程度，影响所述识别规则的匹配度。 5.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S2中，设置每条识别规则的优先级，所述优先级被设置为一个数值，数值越大优先级越高，按照优先级从高到低依次匹配执行。 6.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S2中，对所述标准元素添加识别规则，设置每条识别规则的可信度和优先级，所述识别规则包括传统算法的识别规则和N LP算法的识别规则，包括： S211、添加传统算法的识别规则R 1和NLP算法的识别规则R2； S212、设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”，设置所述传统算法的识别规则R1的匹配方法为 “正则匹配 ”；设置NLP算法的识别规则R2的匹配方法为 “NLP 匹配”；以及 S213、分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级，并且所述传统算法的识别规则R 1的优先级大于N LP算法的识别规则R2的优先级。 7.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法，其特征在于，在步骤S2中，对所述标准元素添加识别规则，设置每条识别规则的可信度和优先级，所述识别规则包括传统算法的识别规则和N LP算法的识别规则，包括： S221、添加传统算法的识别规则R 1和NLP算法的识别规则R2；权　利　要　求　书 1/2 页 2 CN 115544256 A 2S222、设置所述传统算法的识别规则R1的匹配类型为 “字段名匹配 ”，设置所述传统算法的识别规则R1的匹配方法为 “正则匹配 ”；设置NLP算法的识别规则R2的匹配方法为 “NLP 匹配”；以及 S223、分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级，并且所述传统算法的识别规则R 1的优先级小于NLP算法的识别规则R2的优先级。 8.一种基于N LP算法模型的自动数据分类分级系统，其特征在于，所述系统包括：确定标准元素模块，用于确定标准元素，并且根据分类分级标准对所述标准元素配置所属的分类目录；添加识别规则模块，用于对所述标准元素添加识别规则，设置每条识别规则的可信度和优先级，所述识别规则包括传统算法的识别规则和N LP算法的识别规则；匹配模块，基于所述识别规则训练NLP模型，根据所述识别规则的优先级从高到低依次执行匹配逻辑，对预处理数据进行NLP算法匹配或者传统算法匹配，获得多个匹配结果；以及标记模块，从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素，并且对所述匹配度最高的结果所对应的标准元素标记分类标签。 9.根据权利要求8所述的基于NLP算法模型的自动数据分类分级系统，其特征在于，在匹配模块中，基于所述识别规则训练N LP模型具体包括以下子步骤： S31、将所述预处理数据的字段名全部转为小写字母，并且去掉特殊符号和数字； S32、根据空格和标点符号拆分，对步骤S31预处理后的数据进行拆分； S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文； S34、对步骤S32处理后的数据进行分词，获得多种组合结果； S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述组合结果，最终获得匹配结果。 10.一种计算机可读存储介质，所述介质中存储有计算机程序，在所述计算机程序被处理器执行时，实施如权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115544256 A 3

专利 一种基于NLP算法模型的自动数据分类分级方法及系统

专利一种基于NLP算法模型的自动数据分类分级方法及系统