专利 一种自然语言的处理方法、装置及计算机存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211020917.9 (22)申请日 2022.08.24 (71)申请人埃摩森网络科技（上海）有限公司地址 201914 上海市崇明区横沙乡红旗村 886号第一幢165室(上海横泰经济开发区) (72)发明人仪强　 (74)专利代理机构东台金诚石专利代理事务所 (特殊普通合伙) 32482 专利代理师周松涛 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) (54)发明名称一种自然语言的处理方法、装置及计算机存储介质 (57)摘要本发明公开了一种自然语言的处理方法、装置及计算机存储介质， 1、包括获取自然语言数据，对获取的语言数据进行处理，将无效语言进行标记化，然后进行剔除，对获取的语言进行特征化，特征化后进行语言片段的分类，对特征化后的语言进行模型的提取，模型提取后进行集合，存入数据库，进行模型的标签化，通过设定检索关键词，用于进行语言的检索提取。本发明对语言进行特征化，对特征化后的语言及其无效语言进行分析，且做到分类存储，这样可以更好的进行检索和查询，同时在进行检索时，设置有精准检索和模糊检索，通过精准检索和模糊检索均可以进行检索，做到更加的便捷。权利要求书1页说明书3页附图1页 CN 115391530 A 2022.11.25 CN 115391530 A 1.一种自然语言的处理方法，其特征在于，包括以下步骤：步骤一：获取自然语言数据；步骤二：对获取的语言数据进行处理，将无效语言进行标记化，然后进行剔除；步骤三：对获取的语言进行特征化，特征化后进行语言片段的分类；步骤四：对特征化后的语言进行模型的提取，模型提取后进行集合，存入数据库；步骤五：进行模型的标签化，通过设定检索关键词，用于进行语言的检索提取。 2.根据权利要求1所述的一种自然语言的处理方法，其特征在于，根据标准化的词库进行语言数据的标签化，分别用于设置准确检索和模糊词检索。 3.根据权利要求1所述的一种自然语言的处理方法，其特征在于，在进行语言的处理时，将语言中的杂音及其标点符号进行去除，然后利用数字化的特征进行语言的特征化，特征化后的语言进行归纳整理，对于标点符号在进行分特征化后利用字母进行表示。 4.根据权利要求1所述的一种自然语言的处理方法，其特征在于，在进行语言模型的提取时，对语言模型进行训练，然后进行特征化，最后得到语音模型。 5.根据权利要求1所述的一种自然语言的处理方法，其特征在于，在进行训练语言模型时，需要先剔除无效语言，然后利用关键词和模糊关键词进行语言的训练，同时对于近义词也同步进行语言模型的建立。 6.根据权利要求1所述的一种自然语言的处理装置，其特征在于，包括：存储模块，存储模块用于进行语言数据的存储，按照特征化后的语言进行分类存储；分析模块，对特征化后的语言及其无效语言进行分析，且做到分类存储；检索模块，用于进行关键词的检索，在进行检索时，设置有精准检索和模糊检索，通过精准检索和模糊检索均可以进行检索；确认模块，用于确认检索后的语言信息。 7.根据权利要求6所述的一种自然语言的处理装置，其特征在于，所述存储模块中还设置有比对模块，用于进行数据的比对，将重复的信息进行剔除。 8.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1‑7中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 115391530 A 2一种自然语言的处理方法、装置及计算机存储介质技术领域 [0001]本发明涉及语言处理领域，特别涉及一种自然语言的处理方法、装置及计算机存储介质。背景技术 [0002]自然语言的处理非常的常见，在现有电子化设备普及率这么高的环境中，对自然语言的提取和处理是非常有必要的，这样可以更好的有助于我们进行语言的传递，在现有的自然语言处理时，准确率非常的低，同时还有很多的无效语言掺在其中，这样就给我们在语言处理时，带来了很大的难度，处理效率低，且准确率也不高，因此需要提供一种自然语言的处理方法、装置及计算机存储介质。发明内容 [0003]本发明的目的在于提供一种自然语言的处理方法、装置及计算机存储介质，以解决上述背景技术中提出的问题。 [0004]为实现上述目的，本发明提供如下技术方案：一种自然语言的处理方法、装置及计算机存储介质，包括以下步骤： [0005]步骤一：获取自然语言数据； [0006]步骤二：对获取的语言数据进行处理，将无效语言进行标记化，然后进行剔除； [0007]步骤三：对获取的语言进行特征化，特征化后进行语言片段的分类； [0008]步骤四：对特征化后的语言进行模型的提取，模型提取后进行集合，存入数据库； [0009]步骤五：进行模型的标签化，通过设定检索关键词，用于进行语言的检索提取。 [0010]优选的，根据标准化的词库进行语言数据的标签化，分别用于设置准确检索和模糊词检索。 [0011]优选的，在进行语言的处理时，将语言中的杂音及其标点符号进行去除，然后利用数字化的特征进行语言的特征化，特征化后的语言进行归纳整理，对于标点符号在进行分特征化后利用字母进行表示。 [0012]优选的，在进行语言模型的提取时，对语言模型进行训练，然后进行特征化，最后得到语音模型。 [0013]优选的，在进行训练语言模型时，需要先剔除无效语言，然后利用关键词和模糊关键词进行语言的训练，同时对于近义词也同步进行语言模型的建立。 [0014]优选的，包括： [0015]存储模块，存储模块用于进行语言数据的存储，按照特征化后的语言进行分类存储； [0016]分析模块，对特征化后的语言及其无效语言进行分析，且做到分类存储； [0017]检索模块，用于进行关键词的检索，在进行检索时，设置有精准检索和模糊检索，通过精准检索和模糊检索均可以进行检索；说　明　书 1/3 页 3 CN 115391530 A 3

专利 一种自然语言的处理方法、装置及计算机存储介质

专利一种自然语言的处理方法、装置及计算机存储介质