专利 一种网络信息提取方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211022271.8 (22)申请日 2022.08.25 (71)申请人中电太极（集团）有限公司地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人李帼伟　陈西选　任翔辉　蔡磊　毕玉玲　杨波　 (74)专利代理机构北京惟专知识产权代理事务所(普通合伙) 16074 专利代理师赵星 (51)Int.Cl. G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种网络信息提取方法及装置 (57)摘要本申请公开了一种网络信息提取方法及装置，并公开一种电子设备，属于信息数据识别研究的技术领域，上述方法可以获取网络中的初始数据；接着，识别上述初始数据的文件格式类型，得到第一文件格式类型；再接着，若上述第一文件格式类型为非结构化文件格式，则针对上述初始数据进行信息提取，以得到第一文本数据；然后，针对上述第一文本数据进行要素提取，以得到第二文本数据；再然后，对上述第二文本数据进行格式标准化处理，以得到标准格式数据。本申请能够对非结构化文件格式的数据进行信息提取，并转换成标准格式，使数据能够导入本地数据库，提高数据库的数据兼容性。权利要求书2页说明书14页附图6页 CN 115098706 A 2022.09.23 CN 115098706 A 1.一种网络信息提取方法，应用于数据库，其特征在于，所述方法包括：获取网络中的初始数据；识别所述初始数据的文件格式类型，得到第一文件格式类型；若所述第一文件格式类型为非结构化文件格式，则针对所述初始数据进行信息提取，以得到第一文本数据；针对所述第一文本数据进行要素提取，以得到第二文本数据；对所述第二文本数据进行格式标准化处理，以得到标准格式数据。 2.如权利要求1所述的网络信息提取方法，其特征在于，所述文件格式类型包括结构化文件格式、半结构化文件格式以及非结构化格式；所述识别所述初始数据的文件格式类型，得到第一文件格式类型的步骤后，还包括：若所述第一文件格式类型为所述结构化文件格式，或所述半结构化文件格式，对所述初始数据进行逐字段的格式解析。 3.如权利要求1所述的网络信息提取方法，其特征在于，所述针对所述初始数据进行信息提取，以得到第一文本数据，包括：识别所述初始数据的文本类型，得到第一文本类型；响应于所述第一文本类型为多格式文档文件，对所述初始数据进行分片解压、分片缓存、特征查找以及正文提取，以得到第一文本数据；响应于所述第一文本类型为影像文件文本，对所述初始数据进行文本检测、文本定位、图像增强与分割以及文字识别，以得到第一文本数据；响应于所述第一文本类型为音频文件文本，对所述初始数据进行音频加窗分帧、语音特征提取以及声学建模，以得到第一文本数据。 4.如权利要求3所述的网络信息提取方法，其特征在于，所述声学建模为将隐马尔科夫模型与深度神经网络进行结合，构建的深度神经网络 ‑隐马尔科夫模型。 5.如权利要求1所述的网络信息提取方法，其特征在于，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，包括：从所述第一文本数据中识别出目标要素；根据所述目标要素的形成结构化的第二文本数据。 6.如权利要求5所述的网络信息提取方法，其特征在于，所述目标要素包括实体、实体关系、以及属性关系，所述从所述第一文本数据中识别出目标要素，包括：获取预设词；基于所述预设词，采用自然语言处理技术对所述第一文本数据进行预处理和解析，采用深度学习模型实现聚类，从而识别出第一文本数据的目标要素。 7.如权利要求5所述的网络信息提取方法，其特征在于，所述针对所述第一文本数据进行要素提取，以得到第二文本数据，还包括：获取目标关键词；从所述第一文本数据中搜索与所述目标关键词匹配的相关文档；对所述相关文档进行实体关系分类，确定目标属性以形成第二文本数据。 8.如权利要求1所述的网络信息提取方法，其特征在于，所述对所述第二文本数据进行格式标准化处理，以得到标准格式数据，包括：权　利　要　求　书 1/2 页 2 CN 115098706 A 2获取数据库的标准格式；根据所述标准格式对所述第二文本进行格式化处理，以得到标准格式数据。 9.一种网络信息提取装置，其特征在于，所述装置包括：获取模块，用于获取网络中的初始数据；识别模块，用于识别所述初始数据的文件格式类型，得到第一文件格式类型；信息提取模块，若所述第一文件格式类型为非结构化文件格式，则用于针对所述初始数据进行信息提取，以得到第一文本数据；要素提取模块，用于针对所述第一文本数据进行要素提取，以得到第二文本数据；格式化模块，用于对所述第二文本数据进行格式标准化处理，以得到标准格式数据。 10.一种电子设备，其特征在于，所述电子设备包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的执行指令时，所述处理器执行如权利要求 1‑8中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115098706 A 3

专利 一种网络信息提取方法及装置

专利一种网络信息提取方法及装置