团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211022271.8 (22)申请日 2022.08.25 (71)申请人 中电太极 (集团) 有限公司 地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人 李帼伟 陈西选 任翔辉 蔡磊 毕玉玲 杨波 (74)专利代理 机构 北京惟专知识产权代理事务 所(普通合伙) 16074 专利代理师 赵星 (51)Int.Cl. G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种网络信息提取方法及装置 (57)摘要 本申请公开了一种网络信息提取方法及装 置, 并公开一种电子设备, 属于信息数据识别研 究的技术领域, 上述方法可以获取网络中的初始 数据; 接着, 识别上述初始数据的文件格式类型, 得到第一文件格式类型; 再接着, 若上述第一文 件格式类型为非结构化文件格式, 则针对上述初 始数据进行信息提取, 以得到第一文本数据; 然 后, 针对上述第一文本数据进行要素提取, 以得 到第二文本数据; 再然后, 对上述第二文本数据 进行格式标准化处理, 以得到标准格式数据。 本 申请能够对非结构化文件格式的数据进行信息 提取, 并转换成标准格式, 使数据能够导入本地 数据库, 提高数据库的数据兼容 性。 权利要求书2页 说明书14页 附图6页 CN 115098706 A 2022.09.23 CN 115098706 A 1.一种网络信息提取 方法, 应用于数据库, 其特 征在于, 所述方法包括: 获取网络中的初始数据; 识别所述初始数据的文件格式类型, 得到第一文件格式类型; 若所述第一文件格式类型为非结构化文件格式, 则针对所述初始数据进行信息提取, 以得到第一文本数据; 针对所述第一文本数据进行要素提取, 以得到第二文本数据; 对所述第二文本数据进行格式标准 化处理, 以得到标准格式数据。 2.如权利要求1所述的网络信 息提取方法, 其特征在于, 所述文件格式类型包括结构化 文件格式、 半结构化文件格式以及非结构化格式; 所述识别所述初始数据的文件格式类型, 得到第一文件格式类型的步骤后, 还 包括: 若所述第一文件格式类型为所述结构化文件格式, 或所述半结构化文件格式, 对所述 初始数据进行 逐字段的格式解析。 3.如权利要求1所述的网络信 息提取方法, 其特征在于, 所述针对所述初始数据进行信 息提取, 以得到第一文本数据, 包括: 识别所述初始数据的文本类型, 得到第一文本类型; 响应于所述第一文本类型为多格式文档文件, 对所述初始数据进行分片解压、 分片缓 存、 特征查找以及正文提取, 以得到第一文本数据; 响应于所述第 一文本类型为影像文件文本, 对所述初始数据进行文本检测、 文本定位、 图像增强与分割以及文字识别, 以得到第一文本数据; 响应于所述第一文本类型为音频文件文本, 对所述初始数据进行音频加窗分帧、 语音 特征提取以及声学建模, 以得到第一文本数据。 4.如权利要求3所述的网络信 息提取方法, 其特征在于, 所述声学建模为将隐马尔科夫 模型与深度神经网络进行 结合, 构建的深度神经网络 ‑隐马尔科 夫模型。 5.如权利要求1所述的网络信 息提取方法, 其特征在于, 所述针对所述第 一文本数据进 行要素提取, 以得到第二文本数据, 包括: 从所述第一文本数据中识别出目标要素; 根据所述目标要素的形成结构化的第二文本数据。 6.如权利要求5所述的网络信息提取方法, 其特征在于, 所述目标要素包括实体、 实体 关系、 以及属性关系, 所述从所述第一文本数据中识别出目标要素, 包括: 获取预设词; 基于所述预设词, 采用自然语言处理技术对所述第一文本数据进行预处理和解析, 采 用深度学习模型实现聚类, 从而识别出第一文本数据的目标要素。 7.如权利要求5所述的网络信 息提取方法, 其特征在于, 所述针对所述第 一文本数据进 行要素提取, 以得到第二文本数据, 还 包括: 获取目标关键词; 从所述第一文本数据中搜索与所述目标关键词匹配的相关文档; 对所述相关文档进行实体关系分类, 确定目标属性以形成第二文本数据。 8.如权利要求1所述的网络信 息提取方法, 其特征在于, 所述对所述第 二文本数据进行 格式标准 化处理, 以得到标准格式数据, 包括:权 利 要 求 书 1/2 页 2 CN 115098706 A 2获取数据库的标准格式; 根据所述标准格式对所述第二文本进行格式化处 理, 以得到标准格式数据。 9.一种网络信息提取装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取网络中的初始数据; 识别模块, 用于识别所述初始数据的文件格式类型, 得到第一文件格式类型; 信息提取模块, 若所述第一文件格式类型为非结构化文件格式, 则用于针对所述初始 数据进行信息提取, 以得到第一文本数据; 要素提取模块, 用于针对所述第一文本数据进行要素提取, 以得到第二文本数据; 格式化模块, 用于对所述第二文本数据进行格式标准 化处理, 以得到标准格式数据。 10.一种电子设备, 其特征在于, 所述电子设备包括处理器以及存储有执行指令的存储 器, 当所述处理器执行所述存储器存储的执行指 令时, 所述处理器执行如权利要求 1‑8中任 一所述的方法。权 利 要 求 书 2/2 页 3 CN 115098706 A 3
专利 一种网络信息提取方法及装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:12:54
上传分享
举报
下载
原文档
(865.3 KB)
分享
友情链接
DB3301-T 0348—2021 机关食堂数字化管理规范 杭州市.pdf
T-CAAMTB 65—2022 汽车非解耦式电子助力制动系统总成性能要求及台架试验方法.pdf
SN-T 5405.1-2021 互联网环境下的认证技术指南 第1部分:总则.pdf
GB-T 30142-2013 平面型电磁屏蔽材料屏蔽效能测量方法.pdf
GB-T 24747-2023 有机热载体安全技术条件.pdf
GB-T 34975-2017 信息安全技术 移动智能终端应用软件安全技术要求和测试评价方法.pdf
DB37-T 3304-2018 信息安全技术 云计算运维安全管理规范 山东省.pdf
GB-T 36341.1-2018 信息技术 形状建模信息表示 第1部分:框架和基本组件.pdf
T-HSCA 001—2018 体育场馆钢结构检测与鉴定规程.pdf
GB 16669-2010 二氧化碳灭火系统及部件通用技术条件.pdf
GB-T 42018-2022 信息技术 人工智能 平台计算资源规范.pdf
GB-T 36340-2018 防静电活动地板通用规范.pdf
DB44-T 1617-2015 计量器具送检样品收发管理规范 广东省.pdf
数据安全管理总纲.pdf
电信研究院 游耀东 DevSecOps在云网融合环境下的实践 2021.pdf
GB-T 958-2015 区域地质图图例.pdf
T-CHTS 10043—2021 公路柔性挡土墙设计与施工技术指南.pdf
WH-T 92-2021 临时搭建演出场所舞台、看台安全监督检验规范.pdf
GB-T 39620-2020 沿海船舶自动识别系统 AIS 基站技术要求.pdf
GB-T 37893-2019 激光-电弧复合焊接推荐工艺方法.pdf
1
/
3
23
评价文档
赞助2.5元 点击下载(865.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。