团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211197789.5 (22)申请日 2022.09.29 (71)申请人 鼎蓝惠民信息技 术 (西安) 有限公司 地址 710061 陕西省西安市高新区高新 一 路25号创新大厦S510室 (72)发明人 孙涛 马国华 赵博 崔力飞  张兴隆 韩丽霞 王云  (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王敏强 (51)Int.Cl. G06F 40/174(2020.01) G06F 40/18(2020.01) G06F 16/35(2019.01) (54)发明名称 一种基于文档表格文本提取方法 (57)摘要 本发明公开了一种基于文档表格文本提取 方法, 首先将待处理的word文档上传到系统服务 器, 系统服务器根据导入文件个数随机给每个文 件分配一个文件编号, 系统服务器将文件编号、 文件名称、 文件大小、 文件存放位置、 文件格式存 放到数据库中; 然后创建目标文件excel并初始 化; 通过文件编号从数据库中获取word文档存放 位置、 文件名称、 文件格式在内的信息并写入目 标文件Excel中; 利用Java读取数据流的方式获 得原word文档 中所有的表格内容; 然后填充, 循 环执行, 直到将原word文件循环完毕; 最后将 目 标文件excel导出。 本发明解决了现有技术中存 在的人工整合工作量较大、 时间紧、 效率低以及 准确性较 差的问题。 权利要求书2页 说明书5页 附图1页 CN 115496043 A 2022.12.20 CN 115496043 A 1.一种基于文档表格文本提取 方法, 其特 征在于, 具体按照以下步骤实施: 步骤1、 将待处理的word文档上传到系统服务器, 系统服务器根据导入文件个数随机给 每个文件分配一个文件编号, 系统服务器将文件编号、 文件名称、 文件 大小、 文件存放位置、 文件格式存放到数据库中; 步骤2、 创建目标文件excel, 并初始化; 步骤3、 通过文件编号从所述步骤1的数据库中获取步骤1中所述的word文档 存放位置、 文件名称、 文件格式在内的信息; 步骤4、 将通过步骤3获取的文件名称写入步骤2中所述的目标文件Excel中; 步骤5、 利用Java读取数据流的方式通过步骤3获取的文件存放路径获得步骤1中的原 word文档中所有的表格内容; 步骤6、 将步骤5中所述的表格内容按照业务规则分为 “表单项名称 ”、“选项名称 ”、“单 位名称”三类, 然后分别填充到步骤2所述的目标Excel中的第三行开始的列标 columnIndex、 columnIndex+1、 co lumnIndex+2对应的单 元格中; 步骤7、 将步骤2初始化定义的列标columnIndex赋值为columnIndex+3, 继续从步骤3~ 步骤6开始循环执 行, 直到将步骤1中所 上传的原w ord文件循环完毕; 步骤8、 将所述步骤2中的目标文件excel以 “x份表单提取+时间戳.xls ”的命名方式导 出。 2.根据权利要求1所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤2具 体按照以下步骤实施: 步骤2.1、 创建目标文件excel, 行和列暂不 填充, 为后面 步骤做准备; 步骤2.2、 自定义目标文件excel的起始列标columnIndex初始值为0, 其他列列标依次+ 1的方式进行 赋值; 步骤2.3、 自定义目标文件excel的起始行标rowIndex初始值为3, 其他行依次+1的方式 进行赋值。 3.根据权利要求4所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤4具 体按照以下步骤实施: 步骤4.1、 将步骤3获取的文件名称写入所述步骤2中的目标文件Excel中, 其中, 目标文 件Excel的第一行的列标为co lumnIndex、 columnIndex+1、 co lumnIndex+2列的合并单 元格; 步骤4.2、 目标文件Excel的第二行写入分类表头, 将 “表单项名称 ”填充到步骤2中所述 列标columnIndex对应的单元格中, 将 “选项名称 ”填充到步骤2中所述列标columnIndex+1 对应的单 元格中, 将 “单位名称 ”填充到步骤2中所述列标co lumnIndex+2对应的单 元格中。 4.根据权利要求3所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤6具 体按照以下步骤实施: 步骤6.1、 将所述步骤5中的表格文本内容通过正则表达式判断当前内容属于表单项名 称、 选项名称、 单位名称中的哪一种类别; 步骤6.2、 如果读取到的文本内容是纯汉字, 或者汉字中带有空格、 中英文的半圆括号、 或者携带百分号%、 携带顿号 “、”这些特殊符号任意中的任意一种, 则认为属于表单项名称 这一分类, 将该内容填充到所述步骤2中的行标为rowIn dex、 列标为columnIn dex对应的单 元格中;权 利 要 求 书 1/2 页 2 CN 115496043 A 2步骤6.3、 如果读取到的文本内容为重量单位、 面积单位、 长度单位、 体积单位、 时间单 位、 金额单位, 则认为是单位名称这一分类, 将该内容填充到所述步骤2中的行标为 rowIndex, 列标为co lumnIndex+1对应的单 元格中; 步骤6.4、 如果读取到的文本内容既不是步骤6.2所述的内容, 也不是步骤6.3所述的内 容, 那么将该部分内容填充到步骤2中所述的行标为rowIndex, 列标为columnIndex+2对应 的单元格中。 5.根据权利要求4所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤8具 体按照以下步骤实施: 将步骤2中所述目标文件excel以 “x份表单提取+时间戳.xls ”的命名方式导出, 该目标 文件excel第一行存放步骤1中word文件的名称, 第二行存放分类表头分别为 “表单项名 称”、“选项名称 ”、“单位名称 ”, 从第三行开始存放步骤1中所述word文档中的表格内容, 按 照业务规则分类分别填充到表头为 “表单项名称 ”、“选项名称 ”、“单位名称 ”对应列; 按照上述 步骤2~步骤8, 上述表格内容 填充到步骤2中所述目标Excel文件中。权 利 要 求 书 2/2 页 3 CN 115496043 A 3

.PDF文档 专利 一种基于文档表格文本提取方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文档表格文本提取方法 第 1 页 专利 一种基于文档表格文本提取方法 第 2 页 专利 一种基于文档表格文本提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。