(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211052825.9
(22)申请日 2022.08.30
(71)申请人 广东电网有限责任公司
地址 510062 广东省广州市越秀区东 风东
路757号
(72)发明人 彭泽武 谢瀚阳 刘明伟 杨漾
苏华权 潘定
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 郑秋松
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/2458(2019.01)
(54)发明名称
一种基于电网数据仓库的自动提取函数依
赖方法
(57)摘要
本发明公开了一种基于电网数据仓库的自
动提取函数依赖方法, 该方法包括下述主要步
骤: 构建电网DV数据仓库; 根据电网数据特征, 检
测函数依赖候选的成立模式; 基于电网业务键自
身与证据属性的数据语义, 计算业务键的数据置
信度、 业务实体关联记录的数据置信度; 根据设
定的置信度阈值, 计算函数依赖候选的数据置信
度; 最终输出所有成立的函数依赖候选。 本发明
克服因多源 数据不一致带来的数据噪音干扰, 解
决了从多对多的链接表中自动提取函数依赖的
技术问题, 提高了计算不同实体属性数据及其记
录置信度的准确性, 实现高效、 高质量的数据语
义关系抽取, 从而为自动构建多维模型奠定基
础。
权利要求书3页 说明书10页 附图4页
CN 115391323 A
2022.11.25
CN 115391323 A
1.一种基于电网数据仓库的自动提取函数依赖方法, 其特 征在于, 包括下述 步骤:
构建电网DV数据仓库, 采用中心点表、 链接表、 附属表分别存储电网业务实体、 关系及
其属性数据;
设置数据语义置信度阈值和链接表有效记录比例阈值;
对链接表构建数据语义置信度计算表及函数依赖候选表, 在数据语义置信度计算表设
置标志, 所述标志用于标记数据记录与函数依赖是否一 致;
对函数依赖候选表中的函数依赖候选表达式, 采用数据语义置信度计算表检测函数依
赖候选的成立模式, 对数据语义置信度计算表中符合成立模式的记录, 将对应标志设置为
标记值;
基于数据语义逐个 计算各个业 务键的数据置信度、 链接记录的函数依赖数据置信度;
对函数依赖候选表中的函数依赖候选表达式计算 函数依赖的数据置信度;
当函数依赖候选表中对函数依赖的数据置信度达到数据语义置信度阈值 时, 判定函数
依赖候选成立, 输出当前函数依赖候选, 在数据语义置信度计算表中更新当前记录对某函
数依赖的数据置信度及 对应标志; 统计更新标志 为标记值所对应的数据 记录数占总数据 记
录数的比例值, 当比例值达到链接表有效记录比例阈值时, 更新函数依赖候选表对应的函
数依赖候选数据置信度;
遍历函数依赖候选表中的所有函数依赖候选表达式, 根据函数依赖候选表中对应的函
数依赖的数据置信度, 输出 所有成立的函数依赖候选 。
2.根据权利要求1所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 对
链接表构建数据语 义置信度计 算表, 具体模式表示为: Conf ‑DS(LK_id, BK1, Attr_Bk1, Conf_
Bk1,…, BKn, Attr_Bkn, Conf_Bkn, Conf‑LK, Incon);
其中, LK_id表示链接表主键, BKi表示第i个业务键, Attr_Bki表示第i个业务键的证据
属性, Conf_Bki表示第i个业务键的数据置信度, Conf ‑LK表示该链接表记录对某函数依赖
的数据置信度, I ncon表示该链接表 记录与某函数依赖是否一 致的标志。
3.根据权利要求2所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 对
链接表构建数据语义置信度计算表, 具体步骤 包括:
将链接表中的逐 条记录按业 务键值顺序写入BK1,…,BKn, 直至链接表全部记录 完成;
按最新时间戳查询到第i个业务键的全部附属表属性, 计算每个属性的取值域基数, 所
述属性不包括数值和日期属性, 将最大基数的属性指定为第i个业务键的证据属性, 重复执
行直至确定全部业 务键的证据属性;
按业务键BKi实例值查询对应证据属性值, 依次写入Attr_Bk1、 Attr_Bk2,…, Attr_Bkn,
直到链接表全部记录 完成。
4.根据权利要求1所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 对
链接表构建函数依赖候选表, 具体模式表示为: Cand ‑FD(FD_id, FD_Left, FD_Right, Conf ‑
FD);
其中, FD_id表示函数依赖候选表达式的标识, FD_Left表示函数依赖候选表达式的左
部, FD_Right 表示函数依赖候选表达式的右部, Co nf‑FD表示对函数依赖的数据置信度。
5.根据权利要求1或4所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在
于, 对链接表构建函数依赖候选表, 具体步骤 包括:权 利 要 求 书 1/3 页
2
CN 115391323 A
2将链接表中的业 务键名两 两组合成序对, 为每 个序对指定一个函数依赖候选表达式;
将函数依赖候选表达式, 以及表达式序对分别写入函数依赖候选表达式的左 部和函数
依赖候选表达式的右部, 直至生成全部函数依赖候选表 记录。
6.根据权利要求1所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 采
用数据语义置信度计算表检测函数依赖候选的成立模式, 具体步骤 包括:
对一个函数依赖候选表达 式, 若数据语义置信度计算表中的对应两个业务键存在满足
其函数依赖候选表达式的记录, 则函数依赖候选表达式的左部值与函数依赖候选表达式的
右部值的记录组成当前函数依赖的成立模式;
对数据语义置信度计算表中符合成立模式的记录, 设置并更新相应标志。
7.根据权利要求1所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 所
述基于数据语义逐个 计算各个业 务键的数据置信度, 具体步骤 包括:
构建事件关系: 将证据属性作为业务键的先发事件, 业务键作为其证据属性的后发事
件;
根据构建的事件关系得到节点间的依赖关系, 计算各业务键值出现的次数, 计算条件
概率, 具体表示 为:
其中, p表示条件概率, #(bk,Attr_Bki(bk))表示业务键bk值及其证据属性Attr_Bki
(bk)值同时出 现的记录数, #(Attr_Bki(bk))表示业务键bk值的证据属性Attr_Bki(bk)值出
现的记录数;
计算数据语义置信度计算表中每 个记录的业 务键实例值的数据置信度, 具体表示 为:
进行归一 化处理, 表示为:
其中, Conf_Bki′(bk)表示归一 化处理后的值;
计算数据语义置信度计算表中链接记录的数据置信度, 并写入数据语义置信度计算表
中对应的属性, 直至全部记录计算完成, 数据置信度的计算公式具体表示 为:
Conf‑LK=min(Conf_Bfi′(bk),BKi∈FD_left ∪FD_right)
其中, Conf ‑LK表示链 接记录对某函数依 赖的数据置信 度, BKi表示数据语义置信度计算
表中每个记录的业务键, FD_Left表示函数依赖候选表达式的左部, FD_Right表示函数依赖
候选表达式的右部 。
8.根据权利要求1所述的基于电网数据仓库的自动提取函数依赖方法, 其特征在于, 对
数据语义置信度计算表中符合成立模式的记录, 将对应标志设置为标记值, 具体为:
符合成立模式的记录对应标志的标记值 为0;
当函数依赖候选表中对函数依赖的数据置信度大于或等于数据语义置信度阈值时, 当
前记录对应标志的标记值 为0;权 利 要 求 书 2/3 页
3
CN 115391323 A
3
专利 一种基于电网数据仓库的自动提取函数依赖方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:27上传分享