团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211197789.5 (22)申请日 2022.09.29 (71)申请人 鼎蓝惠民信息技 术 (西安) 有限公司 地址 710061 陕西省西安市高新区高新 一 路25号创新大厦S510室 (72)发明人 孙涛 马国华 赵博 崔力飞 张兴隆 韩丽霞 王云 (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王敏强 (51)Int.Cl. G06F 40/174(2020.01) G06F 40/18(2020.01) G06F 16/35(2019.01) (54)发明名称 一种基于文档表格文本提取方法 (57)摘要 本发明公开了一种基于文档表格文本提取 方法, 首先将待处理的word文档上传到系统服务 器, 系统服务器根据导入文件个数随机给每个文 件分配一个文件编号, 系统服务器将文件编号、 文件名称、 文件大小、 文件存放位置、 文件格式存 放到数据库中; 然后创建目标文件excel并初始 化; 通过文件编号从数据库中获取word文档存放 位置、 文件名称、 文件格式在内的信息并写入目 标文件Excel中; 利用Java读取数据流的方式获 得原word文档 中所有的表格内容; 然后填充, 循 环执行, 直到将原word文件循环完毕; 最后将 目 标文件excel导出。 本发明解决了现有技术中存 在的人工整合工作量较大、 时间紧、 效率低以及 准确性较 差的问题。 权利要求书2页 说明书5页 附图1页 CN 115496043 A 2022.12.20 CN 115496043 A 1.一种基于文档表格文本提取 方法, 其特 征在于, 具体按照以下步骤实施: 步骤1、 将待处理的word文档上传到系统服务器, 系统服务器根据导入文件个数随机给 每个文件分配一个文件编号, 系统服务器将文件编号、 文件名称、 文件 大小、 文件存放位置、 文件格式存放到数据库中; 步骤2、 创建目标文件excel, 并初始化; 步骤3、 通过文件编号从所述步骤1的数据库中获取步骤1中所述的word文档 存放位置、 文件名称、 文件格式在内的信息; 步骤4、 将通过步骤3获取的文件名称写入步骤2中所述的目标文件Excel中; 步骤5、 利用Java读取数据流的方式通过步骤3获取的文件存放路径获得步骤1中的原 word文档中所有的表格内容; 步骤6、 将步骤5中所述的表格内容按照业务规则分为 “表单项名称 ”、“选项名称 ”、“单 位名称”三类, 然后分别填充到步骤2所述的目标Excel中的第三行开始的列标 columnIndex、 columnIndex+1、 co lumnIndex+2对应的单 元格中; 步骤7、 将步骤2初始化定义的列标columnIndex赋值为columnIndex+3, 继续从步骤3~ 步骤6开始循环执 行, 直到将步骤1中所 上传的原w ord文件循环完毕; 步骤8、 将所述步骤2中的目标文件excel以 “x份表单提取+时间戳.xls ”的命名方式导 出。 2.根据权利要求1所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤2具 体按照以下步骤实施: 步骤2.1、 创建目标文件excel, 行和列暂不 填充, 为后面 步骤做准备; 步骤2.2、 自定义目标文件excel的起始列标columnIndex初始值为0, 其他列列标依次+ 1的方式进行 赋值; 步骤2.3、 自定义目标文件excel的起始行标rowIndex初始值为3, 其他行依次+1的方式 进行赋值。 3.根据权利要求4所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤4具 体按照以下步骤实施: 步骤4.1、 将步骤3获取的文件名称写入所述步骤2中的目标文件Excel中, 其中, 目标文 件Excel的第一行的列标为co lumnIndex、 columnIndex+1、 co lumnIndex+2列的合并单 元格; 步骤4.2、 目标文件Excel的第二行写入分类表头, 将 “表单项名称 ”填充到步骤2中所述 列标columnIndex对应的单元格中, 将 “选项名称 ”填充到步骤2中所述列标columnIndex+1 对应的单 元格中, 将 “单位名称 ”填充到步骤2中所述列标co lumnIndex+2对应的单 元格中。 4.根据权利要求3所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤6具 体按照以下步骤实施: 步骤6.1、 将所述步骤5中的表格文本内容通过正则表达式判断当前内容属于表单项名 称、 选项名称、 单位名称中的哪一种类别; 步骤6.2、 如果读取到的文本内容是纯汉字, 或者汉字中带有空格、 中英文的半圆括号、 或者携带百分号%、 携带顿号 “、”这些特殊符号任意中的任意一种, 则认为属于表单项名称 这一分类, 将该内容填充到所述步骤2中的行标为rowIn dex、 列标为columnIn dex对应的单 元格中;权 利 要 求 书 1/2 页 2 CN 115496043 A 2步骤6.3、 如果读取到的文本内容为重量单位、 面积单位、 长度单位、 体积单位、 时间单 位、 金额单位, 则认为是单位名称这一分类, 将该内容填充到所述步骤2中的行标为 rowIndex, 列标为co lumnIndex+1对应的单 元格中; 步骤6.4、 如果读取到的文本内容既不是步骤6.2所述的内容, 也不是步骤6.3所述的内 容, 那么将该部分内容填充到步骤2中所述的行标为rowIndex, 列标为columnIndex+2对应 的单元格中。 5.根据权利要求4所述的一种基于文档表格文本提取方法, 其特征在于, 所述步骤8具 体按照以下步骤实施: 将步骤2中所述目标文件excel以 “x份表单提取+时间戳.xls ”的命名方式导出, 该目标 文件excel第一行存放步骤1中word文件的名称, 第二行存放分类表头分别为 “表单项名 称”、“选项名称 ”、“单位名称 ”, 从第三行开始存放步骤1中所述word文档中的表格内容, 按 照业务规则分类分别填充到表头为 “表单项名称 ”、“选项名称 ”、“单位名称 ”对应列; 按照上述 步骤2~步骤8, 上述表格内容 填充到步骤2中所述目标Excel文件中。权 利 要 求 书 2/2 页 3 CN 115496043 A 3
专利 一种基于文档表格文本提取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:11:19
上传分享
举报
下载
原文档
(469.1 KB)
分享
友情链接
易制爆危险化学品治安管理办法.pdf
SN-T 1417-2004 国境口岸除鼠规程.pdf
GB-T 15166.6-2023 高压交流熔断器 第6部分:用于变压器回路的高压熔断器的熔断件选用导则.pdf
GB-T 22696.1-2008 电气设备的安全 风险评估和风险降低 第1部分:总则.pdf
奇安信 中国政企机构数据安全风险研究报告.pdf
T-WX 0001—2017 移动终端数字证书应用标准 总体框架.pdf
GB-T 9473-2017 读写作业台灯性能要求.pdf
GB-T 40829-2021 组织资产管理体系成熟度评价.pdf
GB/T 36621-2018 智慧城市 信息技术运营指南.pdf
YD-T 交互式应用程序安全测试工具能力要求.pdf
T-SHXFXH 002—2023 建筑电气防火检测技术规程.pdf
DB4403-T 27-2019 城市轨道交通警用安全防范系统与通信系统技术规范 深圳市.pdf
GB-T 5216-2014 保证淬透性结构钢.pdf
API安全发展白皮书.pdf
刘亮 去哪儿网硬件自动化运维体系介绍.pdf
T-ZJCX 0020—2022 基于数值仿真与数字孪生的大坝健康管理技术导则.pdf
T-CCPITCSC 119—2023 企业税务风险管理指南.pdf
GB 7260.1-2008 不间断电源第1-1部分 一般规定和安全要求.pdf
DB3711-T 134-2023 化工企业投资项目节能报告编制指南 日照市.pdf
YD-T 4194-2023 5G终端基于NR的语音解决方案(VoNR)技术要求.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(469.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。