团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211022159.4 (22)申请日 2022.08.25 (71)申请人 北京美络克思科技有限公司 地址 100020 北京市朝阳区安定路3 5号11 层1125室 (72)发明人 黄春鹏 季雪岗 王磊  (74)专利代理 机构 北京细软智谷知识产权代理 有限责任公司 1 1471 专利代理师 葛钟 (51)Int.Cl. G06F 16/93(2019.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 30/416(2022.01)G06V 30/412(2022.01) (54)发明名称 一种档案智能鉴定方法、 装置及系统 (57)摘要 本发明属于档案鉴定技术领域, 具体涉及一 种档案智能鉴定方法、 装置及系统, 通过获取档 案的电子 数据, 对所述档案的电子数据进行数据 处理, 得到待鉴定档案数据; 将待鉴定档案数据 输入到机器学习模型中, 其中, 机器学习模型为 使用多组训练数据训练出来的, 多组训练数据均 包括档案的密级标签和档案的保管期限标签; 获 取机器学习模型的输出信息结果, 其中, 输出信 息结果包括所述档案的密级标签和档案的保管 期限标签。 本申请技术方案可快速实现电子档案 的智能鉴定, 解决了现有档案管理系统中, 依赖 于人工进行档案密级、 保管期限和分类等标签的 鉴定, 给档案的管理和利用带来极大便利。 权利要求书1页 说明书7页 附图2页 CN 115129959 A 2022.09.30 CN 115129959 A 1.一种档案智能鉴定方法, 其特 征在于, 包括以下步骤: 获取档案的电子数据; 对所述档案的电子数据进行 数据处理, 得到待鉴定档案数据; 将所述待鉴定档案数据输入到机器学习模型中, 其中, 所述机器学习模型为使用多组 训练数据训练出来的, 所述多组训练数据均包括档案的密级标签和档案的保管期限标签; 获取所述机器学习模型的输出信息结果, 其中, 所述输出信息结果包括所述档案的密 级标签和档案的保管期限标签。 2.根据权利要求1所述的方法, 其特征在于, 对所述档案的 电子数据进行数据处理, 得 到待鉴定档案数据, 包括: 对每一个文档进行知识内容 提取, 将提取的知识内容作为待鉴定档案数据。 3.根据权利要求2所述的方法, 其特征在于, 所述对每一个文档进行知识内容提取, 将 提取的知识内容作为待鉴定档案数据, 包括: 对电子文档的原始视觉信息进行统计, 统计内容包括文本内容的字体类型、 字体大小 和线条信息; 根据所述统计内容, 确定正文字体 类型、 字体大小和表格区域, 输出统计结果; 根据所述统计结果, 按照文章阅读的视觉处理逻辑, 确定文档的标题、 段落和表格元 素。 4.根据权利要求1所述的方法, 其特征在于, 所述机器学习模型为Text ‑CNN模型, 用于 档案标签分类。 5.根据权利要求1所述的方法, 其特征在于, 在获取所述机器学习 模型的输出信 息结果 之后, 还包括: 将所述输出信息结果与预测结果进行比较, 得到 机器学习的测试成功率; 若所述测试成功率超过 预设阈值, 则将所述输出信息结果输入至档案智能鉴定系统。 6.一种档案智能鉴定装置, 其特 征在于, 包括: 获取模块, 用于获取档案的 电子数据, 所述档案的 电子数据为档案专家已经鉴定的档 案; 数据处理模块, 用于对所述档案的电子数据进行 数据处理, 得到待鉴定档案数据; 机器学习模块, 用于将所述待鉴定档案数据输入到机器学习模型中, 其中, 所述机器学 习模型为使用多组训练数据训练出来的, 所述多组训练数据均包括档案的密 级标签和档案 的保管期限标签; 结果输出模块, 获取所述机器学习模型的输出信息结果, 其中, 所述输出信息结果包括 所述档案的密级标签和档案的保管期限标签。 7.根据权利要求6所述的装置, 其特 征在于, 还 包括: 知识内容提取模块, 用于对每一个文档进行知识内容提取, 将提取的知识内容作为待 鉴定档案数据。 8.一种档案智能鉴定系统, 其特 征在于, 包括: 存储器和处 理器; 所述存储器用于存 储所述处 理器可执行指令; 所述处理器被配置为用于执 行权利要求1 ‑5任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115129959 A 2一种档案智能鉴定方 法、 装置及系统 技术领域 [0001]本发明属于档案鉴定领域, 特别地, 涉及一种档案智能鉴定方法、 装置及系统。 背景技术 [0002]目前档案系统的电子文档的管理利用流程中, 采用比较多的是文档的文本信息提 取和元数据提取技术。 使用文本信息提取技术, 进 行文档的搜索利用; 提取文档的元数据信 息进行文档的辅助著录和管理。 [0003]而对于归档的文档的档案鉴定过程, 目前都是依赖档案专家和从业人员进行人工 鉴定。 而档案从业人员的素质水平参差不齐, 造成档案鉴定的错误率比较高; 而且档案的鉴 定工作是一份人力消 耗比较大 的工作, 在人工智能技术发展的今天, 是可以依赖人工智能 技术进行档案鉴定 工作变革的比较好的时机 。 [0004]由于档案的鉴定, 如对于档案的密级、 保管期限和分类等标签的鉴定, 目前都是依 赖档案专 家的人工鉴定, 档案鉴定效率低。 [0005]基于此, 如何提供一种档案智能鉴定方法, 有利于节省大量的人力, 并减少对档案 专家的依赖是亟 待解决的问题。 发明内容 [0006]有鉴于此, 本 发明的目的在于克服现有技术的不足, 提供一种档案智能鉴定方法、 装置及系统。 [0007]为实现以上目的, 本申请采用如下技 术方案: 第一方面, 本申请提供一种档案智能鉴定方法, 包括以下步骤: 获取档案的电子数据; 对所述档案的电子数据进行 数据处理, 得到待鉴定档案数据; 将所述待鉴定档案数据输入到机器学习模型中, 其中, 所述机器学习模型为使用 多组训练数据训练出来的, 所述多组训练数据均包括档案的密级标签和档案的保管期限标 签; 获取所述机器学习模型的输出信息结果, 其中, 所述输出信息结果包括所述档案 的密级标签和档案的保管期限标签。 [0008]进一步地, 对所述档案的电子数据进行 数据处理, 得到待鉴定档案数据, 包括: 对每一个文档进行知识内容 提取, 将提取的知识内容作为待鉴定档案数据。 [0009]进一步地, 所述对每一个文档进行知识内容提取, 将提取的知识内容作为待鉴定 档案数据, 包括: 对电子文档的原始视觉信息进行统计, 统计内容包括文本内容的字体类型、 字体 大小和线条信息; 根据所述统计内容, 确定正文字体 类型、 字体大小和表格区域, 输出统计结果; 根据所述统计结果, 按照文章阅读的视觉处理逻辑, 确定文档的标题、 段落和表格说 明 书 1/7 页 3 CN 115129959 A 3

.PDF文档 专利 一种档案智能鉴定方法、装置及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种档案智能鉴定方法、装置及系统 第 1 页 专利 一种档案智能鉴定方法、装置及系统 第 2 页 专利 一种档案智能鉴定方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。