团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020917.9 (22)申请日 2022.08.24 (71)申请人 埃摩森网络科技 (上海) 有限公司 地址 201914 上海市崇明区横沙乡红旗村 886号第一幢165室(上海横泰经济开 发区) (72)发明人 仪强 (74)专利代理 机构 东台金诚石专利代理事务所 (特殊普通 合伙) 32482 专利代理师 周松涛 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) (54)发明名称 一种自然语 言的处理方法、 装置及计算机存 储介质 (57)摘要 本发明公开了一种自然语 言的处理方法、 装 置及计算机存储介质, 1、 包括获取自然语言数 据, 对获取的语言数据进行处理, 将无效语言进 行标记化, 然后进行剔除, 对获取的语言进行特 征化, 特征化后进行语言片段的分类, 对特征化 后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库, 进行模 型的标签化, 通过设定检 索关键词, 用于进行语言的检索提取。 本发明对 语言进行特征化, 对特征化后的语 言及其无效语 言进行分析, 且做到分类存储, 这样可 以更好的 进行检索和查询, 同时在进行检索时, 设置有精 准检索和模糊检索, 通过精准检索和模糊检索均 可以进行检索, 做到更加的便捷。 权利要求书1页 说明书3页 附图1页 CN 115391530 A 2022.11.25 CN 115391530 A 1.一种自然语言的处 理方法, 其特 征在于, 包括以下步骤: 步骤一: 获取自然语言数据; 步骤二: 对获取的语言数据进行处 理, 将无效语言进行 标记化, 然后进行剔除; 步骤三: 对获取的语言进行 特征化, 特征化后进行语言片段的分类; 步骤四: 对特 征化后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库; 步骤五: 进行模型的标签化, 通过设定检索关键词, 用于进行语言的检索提取。 2.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 根据标准化的词库进 行语言数据的标签化, 分别用于设置准确检索和模糊词检索。 3.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行语言的处理 时, 将语言中的杂音及其标点符号进 行去除, 然后利用数字化的特征进 行语言的特征化, 特 征化后的语言进行归纳整理, 对于标点符号在进行分特 征化后利用字母进行表示。 4.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行语言模型的提 取时, 对语言模型进行训练, 然后进行 特征化, 最后得到语音模型。 5.根据权利要求1所述的一种自然语言的处理方法, 其特征在于, 在进行训练语言模型 时, 需要先剔除无效语 言, 然后利用关键词和模糊关键词进 行语言的训练, 同时对于近义词 也同步进行语言模型的建立。 6.根据权利要求1所述的一种自然语言的处 理装置, 其特 征在于, 包括: 存储模块, 存储模块用于进行语言数据的存 储, 按照特 征化后的语言进行分类存 储; 分析模块, 对特 征化后的语言及其无效语言进行分析, 且做到分类存 储; 检索模块, 用于进行关键词的检索, 在进行检索时, 设置有精准检索和模糊检索, 通过 精准检索和模糊检索均可以进行检索; 确认模块, 用于确认检索后的语言信息 。 7.根据权利要求6所述的一种自然语言的处理装置, 其特征在于, 所述存储模块中还设 置有比对 模块, 用于进行 数据的比对, 将重复的信息进行剔除。 8.一种计算机可读介质, 其上存储有计算机程序, 所述程序被处理器执行时实现如权 利要求1‑7中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115391530 A 2一种自然语言的处理 方法、 装置及计算机存 储介质 技术领域 [0001]本发明涉及语言处理领域, 特别涉及一种自然语言的处理方法、 装置及计算机存 储介质。 背景技术 [0002]自然语言的处理非常的常见, 在现有电子化设备普及率这么高的环境中, 对自然 语言的提取和处理是非常有必要的, 这样可以更好的有助于我们进行语言的传递, 在现有 的自然语言处理 时, 准确率 非常的低, 同时还有很多的无效语言掺在其中, 这样就给我们在 语言处理时, 带来了很大的难度, 处理效率低, 且准确 率也不高, 因此需要提供一种自然语 言的处理方法、 装置及计算机存 储介质。 发明内容 [0003]本发明的目的在于提供一种自然语言的处理方法、 装置及计算机存储介质, 以解 决上述背景技 术中提出的问题。 [0004]为实现上述目的, 本 发明提供如下技术方案: 一种自然语言的处理方法、 装置及计 算机存储介质, 包括以下步骤: [0005]步骤一: 获取自然语言数据; [0006]步骤二: 对获取的语言数据进行处 理, 将无效语言进行 标记化, 然后进行剔除; [0007]步骤三: 对获取的语言进行 特征化, 特征化后进行语言片段的分类; [0008]步骤四: 对特 征化后的语言进行模型的提取, 模型提取后进行集 合, 存入数据库; [0009]步骤五: 进行模型的标签化, 通过设定检索关键词, 用于进行语言的检索提取。 [0010]优选的, 根据标准化的词库进行语言数据的标签化, 分别用于设置准确检索和模 糊词检索。 [0011]优选的, 在进行语言的处理时, 将语言中的杂音及其标点符号进行去除, 然后利用 数字化的特征进行语言的特征化, 特征化后的语言进行归纳整理, 对于标点符号在进行分 特征化后利用字母进行表示。 [0012]优选的, 在进行语言模型的提取时, 对语言模型进行训练, 然后进行特征化, 最后 得到语音模型。 [0013]优选的, 在进行训练语言模型时, 需要先剔除无效语言, 然后利用关键词和模糊关 键词进行语言的训练, 同时对于 近义词也同步进行语言模型的建立。 [0014]优选的, 包括: [0015]存储模块, 存储模块用于进行语言数据的存储, 按照特征化后的语言进行分类存 储; [0016]分析模块, 对特 征化后的语言及其无效语言进行分析, 且做到分类存 储; [0017]检索模块, 用于进行关键词的检索, 在进行检索时, 设置有精准检索和模糊检索, 通过精准检索和模糊检索均可以进行检索;说 明 书 1/3 页 3 CN 115391530 A 3
专利 一种自然语言的处理方法、装置及计算机存储介质
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:12:56
上传分享
举报
下载
原文档
(317.2 KB)
分享
友情链接
GJB 907A-2006 产品质量评审.pdf
信通院 数据中心产业图谱研究报告.pdf
GB-T 43706-2024 资产管理 战略资产管理计划 SAMP 实施指南.pdf
GB-T 43366-2023 宇航用半导体分立器件通用规范.pdf
DB11-T 1289-2015 信息技术 灾难恢复系统成本效益评估规范 北京市.pdf
GB-T 37939-2019 信息安全技术 网络存储安全技术要求.pdf
GA-T 1733-2020 便携式警用装备锂离子电池和电池组通用技术要求.pdf
ISO 5393 2017 Rotary tools for threaded fasteners — Performance test method.pdf
DB61-T 1155-2018 建筑消防设施检测规范 陕西省.pdf
GB-T 13606-2007 土工试验仪器 岩土工程仪器 振弦式传感器通用技术条件.pdf
DB44-T 2328-2021 慢性肾脏病中医健康管理技术规范 广东省.pdf
GB-T 40778.3-2022 物联网 面向Web开放服务的系统实现 第3部分:物体发现方法.pdf
悬镜SDL-DevSecOps安全开发建设v6.pdf
GB-T 28905-2022 建筑用低屈服强度钢板.pdf
T-CESA 1172—2021 信息技术服务 智能运维 通用要求.pdf
T-SIA 031.3—2021 系统安全工程 网络弹性构建指南 第3部分 网络弹性构建过程.pdf
T-CESA 1218—2022 服务器基板管理控制器 BMC 技术要求.pdf
GB-T 36323-2018 信息安全技术 工业控制系统安全管理基本要求.pdf
GB-T 38667-2020 信息技术 大数据 数据分类指南.pdf
T-NIFA 22—2023 金融数据安全应急响应和处置指引.pdf
1
/
3
6
评价文档
赞助2.5元 点击下载(317.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。