团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211079114.0 (22)申请日 2022.09.05 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 洪烨嵘 赵尊晨 孙海鑫 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 孔祥贵 (51)Int.Cl. G06F 40/18(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 40/284(2020.01)G06F 40/295(2020.01) G06F 16/951(2019.01) G06F 16/22(2019.01) (54)发明名称 一种监管报表的预处 理方法和装置 (57)摘要 本申请公开了一种监管报表的预处理方法 和装置, 可应用于计算机技术领域。 该方法中, 获 取目标行业的公开新闻信息对应的文本数据; 根 据文本数据、 文本分类模型、 主题预测模型和命 名实体识别算法, 获得与监管报送相关的频道的 文本中各主题的关键词; 基于已有监管报表构建 字典类型的报表血缘图数据库, 报表血缘图数据 库以字段作为索引, 已有监管报表 来自监管报表 系统; 基于各主题的关键词中确定的热词与 报表 血缘图数据库中的各报的相关度, 确定目标报 表, 目标报告为对监管报送工作的预测结果。 如 此, 能够对监管报送给出前期的准确和合理的预 判, 给监管报表开发工作方向以指导, 使得监管 报送的效率更加高效, 提高监管报表 开发流程的 智能化水平。 权利要求书2页 说明书10页 附图2页 CN 115409006 A 2022.11.29 CN 115409006 A 1.一种监管报表的预处 理方法, 其特 征在于, 包括: 获取目标 行业的公开 新闻信息对应的文本数据; 根据所述文本数据、 文本分类模型、 主题预测模型和命名实体识别算法, 获得与监管报 送相关的频道的文本中各主题的关键词; 基于已有监管报表构建字典类型的报表血缘图数据库, 所述报表血缘图数据库以字段 作为索引, 所述已有监管报表来自监管报表系统; 基于所述各主题的关键词中确定的热词与 所述报表血缘图数据库中的各报的相关度, 确定目标报表, 所述目标报告为对监管报送工作的预测结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述文本数据、 文本分类模型、 主 题预测模型和命名实体识别算法, 获得与监管报送相关的频道的文本中各主题的关键词, 包括: 基于所述文本分类模型, 对所述文本数据按照频道进行分类, 获得频道分类结果, 所述 文本分类模型为采用最大熵分类 器构建的模型; 从所述频道分类结果中获得与所述 监管报送相关的目标 频道的文本数据; 将所述目标频道的文本数据输入所述主题预测模型, 获得所述目标频道的文本数据的 主题, 所述主题预测模型为采用狄利克 雷分布LDA方法构建的模型; 将所述目标频道的文本数据中相同主题的文本数据进行关键词抽取, 获得各主题的文 本数据的关键词。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述目标频道的文本数据中相同主 题的文本数据进行关键词抽取, 获得 各主题的文本数据的关键词, 包括: 将所述目标频道 的文本数据中相同主题的文本数据进行分词、 过滤停用词, 获得每个 主题的多个候选词; 将一个主题的多个候选词分别进行相似度、 词长、 词位置的相关性计算, 确定所述多个 候选词中各候选词的得分; 基于所述多个候选词中各候选词的得分, 从所述多个候选词中选取 该主题的关键词。 4.根据权利要求1所述的方法, 其特征在于, 所述获取目标行业的公开新闻信 息对应的 文本数据, 包括: 选择所述目标 行业的新闻网站; 提取所述新闻网站的统一资源定位符URL; 通过抓取Scrapy网络爬虫工具和所述URL, 获得所述新闻网站的网页中的非结构化数 据; 将所述非结构化数据存 储为所述文本数据。 5.根据权利要求1所述的方法, 其特征在于, 所述基于已有监管报表构建字典类型的报 表血缘图数据库, 包括: 解析结构化查询语言SQ L脚本、 程序中的库、 表、 视图、 字段间的关系, 获得解析 结果; 采用neo4j图数据库存储所述解析结果, 存储所述解析结果的neo4j图数据库记作所述 字典类型的报表血缘图数据库; 所述方法还 包括: 采用有向无环图DAG模式对所述报表血缘图数据库进行可视化展现, 作为监管报表系权 利 要 求 书 1/2 页 2 CN 115409006 A 2统的数据地图。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述各主题的关键词中确定的热 词与所述报表血缘图数据库中的各报的相关度, 确定目标报表, 包括: 将所述各主题中每个主题的关键词的频率和相关度, 确定该主题的热词, 所述热词属 于所述关键词; 将所述热词放入所述报表血缘图数据库中, 计算所述热词与 所述报表血缘图数据库中 各报表的相关度; 基于所述报表血缘图数据库中各报表的相关度, 确定所述目标报表。 7.根据权利要求1 ‑6任一项所述的方法, 其特 征在于, 所述方法还 包括: 维护所述报表血缘图数据库。 8.根据权利要求7 所述的方法, 其特 征在于, 所述维护所述报表血缘图数据库, 包括: 按照预设的时间周期, 识别所述报表血缘图数据库的变化; 响应于确定所述报表血缘图数据库的变化, 生成变动日志; 分析所述变动日志中涉及的表和字段的血缘关系获得分析结果, 并根据 所述分析结果 刷新所述报表血缘图数据库; 基于所述变动日志生成提醒信 息, 所述提醒信 息用于提醒前端业务人员进行相应的配 置改造, 以便按照审核通过后的配置修改所述 监管报表系统。 9.一种监管报表的预处 理装置, 其特 征在于, 包括: 第一获得 单元, 用于获取目标 行业的公开 新闻信息对应的文本数据; 第二获得单元, 用于根据 所述文本数据、 文本分类模型、 主题预测模型和命名实体识别 算法, 获得与监管报送相关的频道的文本中各主题的关键词; 构建单元, 用于基于已有监管报表构建字典类型的报表血缘图数据库, 所述报表血缘 图数据库以字段作为索引, 所述已有监管报表来自监管报表系统; 确定单元, 用于基于所述各主题的关键词中确定的热词与所述报表血缘图数据库中的 各报的相关度, 确定目标报表, 所述目标报告为对监管报送工作的预测结果。 10.一种电子设备, 其特 征在于, 所述电子设备包括处 理器以及存 储器: 所述存储器用于存 储计算机程序; 所述处理器用于根据所述计算机程序执 行权利要求1 ‑8任一项所述的方法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机 程序, 所述计算机程序用于执 行权利要求1 ‑8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115409006 A 3
专利 一种监管报表的预处理方法和装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:12:48
上传分享
举报
下载
原文档
(502.4 KB)
分享
友情链接
GB-T 16553-2017 珠宝玉石 鉴定.pdf
GB-T 24549-2020 燃料电池电动汽车 安全要求.pdf
YD-T 4194-2023 5G终端基于NR的语音解决方案(VoNR)技术要求.pdf
DB61-T 1571-2022 城镇污水处理厂污泥处理处置技术规范 陕西省.pdf
GB-T 38647.1-2020 信息技术 安全技术 匿名数字签名 第1部分:总则.pdf
JR-T 0255—2022 金融行业信息系统商用密码应用 基本要求.pdf
GB-T 41626-2022 动物腧穴名称与定位 马属动物.pdf
GB-T 10002.2-2023 给水用硬聚氯乙烯 PVC-U 管件.pdf
tc260 网络安全标准实践指南 数据分类分级指引 2022 .pdf
GB-T 19392-2013 车载卫星导航设备通用规范.pdf
GB-T 30363-2013 森林植被状况监测技术规范.pdf
NY-T 2949-2016 高标准农田建设技术规范.pdf
TB-T 1670-2019 机车车辆车钩缓冲装置计量器具 15型车钩量具.pdf
GB-T 6890-2012 锌粉.pdf
DB13-T 2262-2015 在用工业锅炉节能运行监测技术规程 河北省.pdf
GB-T 35291-2017 信息安全技术 智能密码钥匙应用接口规范.pdf
T-GDIIA 005—2021 信息技术应用创新项目运行维护服务标准.pdf
GM-T 0026-2014 安全认证网关产品规范.pdf
GB-T 32918.5-2017 信息安全技术 SM2椭圆曲线公钥密码算法 第5部分:参数定义.pdf
GB-T 23981.2-2023 色漆和清漆 遮盖力的测定 第2部分:黑白格板法.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(502.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。