团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020917.9 (22)申请日 2022.08.24 (71)申请人 埃摩森网络科技 (上海) 有限公司 地址 201914 上海市崇明区横沙乡红旗村 886号第一幢165室(上海横泰经济开 发区) (72)发明人 仪强  (74)专利代理 机构 东台金诚石专利代理事务所 (特殊普通 合伙) 32482 专利代理师 周松涛 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) (54)发明名称 一种自然语 言的处理方法、 装置及计算机存 储介质 (57)摘要 本发明公开了一种自然语 言的处理方法、 装 置及计算机存储介质, 1、 包括获取自然语言数 据, 对获取的语言数据进行处理, 将无效语言进 行标记化, 然后进行剔除, 对获取的语言进行特 征化, 特征化后进行语言片段的分类, 对特征化 后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库, 进行模 型的标签化, 通过设定检 索关键词, 用于进行语言的检索提取。 本发明对 语言进行特征化, 对特征化后的语 言及其无效语 言进行分析, 且做到分类存储, 这样可 以更好的 进行检索和查询, 同时在进行检索时, 设置有精 准检索和模糊检索, 通过精准检索和模糊检索均 可以进行检索, 做到更加的便捷。 权利要求书1页 说明书3页 附图1页 CN 115391530 A 2022.11.25 CN 115391530 A 1.一种自然语言的处 理方法, 其特 征在于, 包括以下步骤: 步骤一: 获取自然语言数据; 步骤二: 对获取的语言数据进行处 理, 将无效语言进行 标记化, 然后进行剔除; 步骤三: 对获取的语言进行 特征化, 特征化后进行语言片段的分类; 步骤四: 对特 征化后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库; 步骤五: 进行模型的标签化, 通过设定检索关键词, 用于进行语言的检索提取。 2.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 根据标准化的词库进 行语言数据的标签化, 分别用于设置准确检索和模糊词检索。 3.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行语言的处理 时, 将语言中的杂音及其标点符号进 行去除, 然后利用数字化的特征进 行语言的特征化, 特 征化后的语言进行归纳整理, 对于标点符号在进行分特 征化后利用字母进行表示。 4.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行语言模型的提 取时, 对语言模型进行训练, 然后进行 特征化, 最后得到语音模型。 5.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行训练语言模型 时, 需要先剔除无效语 言, 然后利用关键词和模糊关键词进 行语言的训练, 同时对于近义词 也同步进行语言模型的建立。 6.根据权利要求1所述的一种自然语言的处 理装置, 其特 征在于, 包括: 存储模块, 存储模块用于进行语言数据的存 储, 按照特 征化后的语言进行分类存 储; 分析模块, 对特 征化后的语言及其无效语言进行分析, 且做到分类存 储; 检索模块, 用于进行关键词的检索, 在进行检索时, 设置有精准检索和模糊检索, 通过 精准检索和模糊检索均可以进行检索; 确认模块, 用于确认检索后的语言信息 。 7.根据权利要求6所述的一种自然语言的处理装置, 其特征在于, 所述存储模块中还设 置有比对 模块, 用于进行 数据的比对, 将重复的信息进行剔除。 8.一种计算机可读介质, 其上存储有计算机程序, 所述程序被处理器执行时实现如权 利要求1‑7中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115391530 A 2一种自然语言的处理 方法、 装置及计算机存 储介质 技术领域 [0001]本发明涉及语言处理领域, 特别涉及一种自然语言的处理方法、 装置及计算机存 储介质。 背景技术 [0002]自然语言的处理非常的常见, 在现有电子化设备普及率这么高的环境中, 对自然 语言的提取和处理是非常有必要的, 这样可以更好的有助于我们进行语言的传递, 在现有 的自然语言处理 时, 准确率 非常的低, 同时还有很多的无效语言掺在其中, 这样就给我们在 语言处理时, 带来了很大的难度, 处理效率低, 且准确 率也不高, 因此需要提供一种自然语 言的处理方法、 装置及计算机存 储介质。 发明内容 [0003]本发明的目的在于提供一种自然语言的处理方法、 装置及计算机存储介质, 以解 决上述背景技 术中提出的问题。 [0004]为实现上述目的, 本 发明提供如下技术方案: 一种自然语言的处理方法、 装置及计 算机存储介质, 包括以下步骤: [0005]步骤一: 获取自然语言数据; [0006]步骤二: 对获取的语言数据进行处 理, 将无效语言进行 标记化, 然后进行剔除; [0007]步骤三: 对获取的语言进行 特征化, 特征化后进行语言片段的分类; [0008]步骤四: 对特 征化后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库; [0009]步骤五: 进行模型的标签化, 通过设定检索关键词, 用于进行语言的检索提取。 [0010]优选的, 根据标准化的词库进行语言数据的标签化, 分别用于设置准确检索和模 糊词检索。 [0011]优选的, 在进行语言的处理时, 将语言中的杂音及其标点符号进行去除, 然后利用 数字化的特征进行语言的特征化, 特征化后的语言进行归纳整理, 对于标点符号在进行分 特征化后利用字母进行表示。 [0012]优选的, 在进行语言模型的提取时, 对语言模型进行训练, 然后进行特征化, 最后 得到语音模型。 [0013]优选的, 在进行训练语言模型时, 需要先剔除无效语言, 然后利用关键词和模糊关 键词进行语言的训练, 同时对于 近义词也同步进行语言模型的建立。 [0014]优选的, 包括: [0015]存储模块, 存储模块用于进行语言数据的存储, 按照特征化后的语言进行分类存 储; [0016]分析模块, 对特 征化后的语言及其无效语言进行分析, 且做到分类存 储; [0017]检索模块, 用于进行关键词的检索, 在进行检索时, 设置有精准检索和模糊检索, 通过精准检索和模糊检索均可以进行检索;说 明 书 1/3 页 3 CN 115391530 A 3

.PDF文档 专利 一种自然语言的处理方法、装置及计算机存储介质

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自然语言的处理方法、装置及计算机存储介质 第 1 页 专利 一种自然语言的处理方法、装置及计算机存储介质 第 2 页 专利 一种自然语言的处理方法、装置及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。