(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211022698.8
(22)申请日 2022.08.25
(71)申请人 深圳市城市交通 规划设计 研究中心
股份有限公司
地址 518131 广东省深圳市龙华区民治街
道龙塘社区星河传奇花园三期商厦1
栋C座1210
(72)发明人 张晓春 袁飞 许华杰
(74)专利代理 机构 哈尔滨市伟晨专利代理事务
所(普通合伙) 23209
专利代理师 李冬爽
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/35(2019.01)
G06Q 50/26(2012.01)
(54)发明名称
基于人工智能的政务数据处理方法、 电子设
备及存储介质
(57)摘要
本发明提出基于人工智能的政务数据处理
方法、 电子设备及存储介质, 属于数据处理技术
领域。 包括以下步骤: S1.对主题数据定义, 从数
据库中筛选与主题数据相关的数据表; S2.对主
题数据质量进行质量评估; S3.多类别属性设计;
S4.多纬度标签设计; S5.多层次指标设计; S6.数
据服务标准规范, 基于构建的多层次指标内容,
规范和统一对外主题数据服务标准, 包括业务含
义、 指标含义、 度量方法和获取频率。 本发明解决
现有技术中存在的数据处理质量低的技术问题。
本发明能够实现快速、 多维的数据查询统计和快
速对问题追溯和定位, 提高数据的可用性。
权利要求书3页 说明书7页 附图1页
CN 115098671 A
2022.09.23
CN 115098671 A
1.基于人工智能的政务数据处 理方法, 其特 征在于, 包括以下步骤:
S1.对主题数据定义, 从数据库中筛 选与主题数据相关的数据表;
S2.对主题数据质量进行质量评估;
S3.多类别属性设计, 根据主题数据的基础特性和业务应用领域, 构建多类别属性框
架, 结合主题数据 表字段内容和质量评估结果, 对同一类别的属性进 行共性内容提取, 根据
职责范围确定属性字段唯一 来源;
S4.多纬度标签设计, 依据属性字段对主题数据进行标记, 对标准化的主题数据字段、
管理和服务对象进 行自动打标签, 其中, 由单个属性字段构成的标签定义为原子标签; 由多
个属性字段构成的标签定义 为复合标签;
S5.多层次指标设计, 按照时间、 空间、 类型和程度不同层次, 围绕主题数据属性和标签
内容进行业 务指标设计, 并确定每项业 务指标的统计口径和统计方法;
S6.基于构建的多层次指标内容, 规范和统一对外主题数据服 务标准。
2.根据权利要求1所述的基于人工智能的政务数据处理方法, 其特征在于, S2具体包括
以下步骤:
S21.根据S1所述数据表, 形成待评估的主题数据表集;
S22.判断失效数据表, 筛选每张数据表中是否存在 “是否有效 ”或“删除标志 ”字段, 并
选择数据表为有效或未删除状态数据表;
S23.判断数据表调用频次, 根据每张数据表调用次数和订阅天数, 判断每张数据表的
日调用量;
S24.筛选日调用量大于1的数据值;
S25.判断数据表完整性, 判断数据表中应被赋值的字段是否为空值, 每发现一个空值
记为1项数据缺失;
, 其中,
=数据表中缺失的数据项数,
=数据表中应赋值的数据项总数;
S26.判断数据表及时性, 获取每张数据表的更新频率, 根据当前时间与更新频率判断
是否更新及时;
, 其中,
=数据表更新延 迟时间,
=数据表最长
接受延迟期限;
S27.数据质量量化评价指标计算, 按加权平均计算被评价数据表的总分
,
其中, Y为被评价数据表总分,
为各指标权重,
为各指标得分, n对应各指标的指标编
码; 预置指标满分100分, 表示被评价数据表未发现指标对应的质量问题, 各指标得分区间
为0‑100分;
S28.数据集筛选, 筛选每 张被评价数据表总分大于60的数据表, 组成主题数据集, 用于
对主题数据属性内容的提取判断。
3.根据权利要求2所述的基于人工智能的政务数据处理方法, 其特征在于, S4具体包括
以下步骤:
S41.标签主题分类,新建一个或多个标签主题分类;
S42.根据S28所述主题数据集, 构建有效的标签主题数据集;
S43.根据数据字典, 将数据字典的码值编码转换为中文或英文;权 利 要 求 书 1/3 页
2
CN 115098671 A
2S44.码值筛选, 统计字典码值中文或英文数量, 对数量大于等于1小于等于10的数据进
行筛选, 作为关联 数据, 大于10的不筛 选;
S45.业务字段标记, 根据数据字典, 对主题数据集的每张数据表业务字段进行标记, 对
存在数据字典或码值的业 务字段进行 标记, 否则不标记;
S46.建立数据关联, 将已标记的数据表业务字段与已筛选的数据字典对应码值建立对
应关系;
S47.标签项设置, 将已标记的数据表业务字段作为标签项, 并设置标签编码, 作 为标签
分类;
S48.预设标签值, 对已设置的标签项进行赋值, 取对应数据字段码值作为标签项 的标
签值;
S49.对预设标签值添加触发器, 填写触发器处 理表达式;
S410.根据预设规则和处 理表达式自动对每张数据表进行打标签, 形成主题标签集;
S411.预算标签校验, 根据系 统自动形成的主题标签集, 由人工标注进行筛选, 对校验
通过进行 标注, 未校验通过的不标注;
S412.标签入库, 筛选已标记校验通过的标签, 将标签自动进行数据入库, 形成标签库
供业务应用。
4.根据权利要求3所述的基于人工智能的政务数据处理方法, 其特征在于, 应被赋值的
字段包括:
S251.根据业 务规则要求或依据数据字典规定为必填的字段;
S252.作为唯一主键或与相关数据表起到关联作用的字段。
5.根据权利要求4所述的基于人工智能的政务数据处理方法, 其特征在于, 根据当前时
间与更新频率判断是否更新及时方法是:
S261.对于日常更新的信息资源表, 按天计更新情况, 评价截止日期 ‑最新记录日期≥1
天, 认为数据表数据更新 不及时, 接受延迟期限为3 0天;
S262.对于1个月更新的信息资源表, 按月计更新情况, 评价截止日期月份 ‑最新记录日
期月份>1个月, 认为数据表数据更新 不及时, 接受延迟期限为6个月;
S263.对于3个月更新的信息资源表, 按月计更新情况, 评价截止日期月份 ‑最新记录日
期月份>3个月, 认为数据表数据更新 不及时, 接受延迟期限为6个月;
S264.对于年更新的信息资源表, 按年计更新情况, 评价截止日期月份 ‑最新记录日期
月份>3个月, 认为数据表数据更新 不及时, 接受延迟期限为12个月。
6.根据权利要求5所述的基于人工智能的政务数据处理方法, 其特征在于, S5具体包括
以下步骤:
S51.构建主题业务模型, 基于业务应用场景, 对主题对象全生命周期过程中的各阶段
业务进行分析、 分类, 提取常用/共性的业务信息, 并按照各项业务在生命周期顺序进行排
列, 作为主题业 务模型;
S52.搭建指标内容, 根据主题业 务模型, 确定各业 务模块业务指标;
S521.确定一级指标, 一级指标反映主题在各个业务方面的总体情况, 从主题数据属性
和预设标签值中取值统计;
S522.确定二级指标, 对一级指标按照不同类别进行拆解得到对应的二级指标;权 利 要 求 书 2/3 页
3
CN 115098671 A
3
专利 基于人工智能的政务数据处理方法、电子设备及存储介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:56上传分享