(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211166018.X
(22)申请日 2022.09.23
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 尹虹舒 周旭华 严梦嘉
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 孙宝海
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 21/60(2013.01)
G06N 20/00(2019.01)
(54)发明名称
数据处理方法、 装置、 电子设备和介质
(57)摘要
本公开实施例提供了一种数据处理方法、 装
置、 电子设备和介质, 涉及数据安全技术领域。 该
方法包括: 对第一数据集合中的第一数据进行计
算, 确定第一数据对应的第一桶标识和第一块标
识; 第一桶标识用于标记存储第一数据的目标
桶, 第一块标识用于标记目标桶内存储第一数据
的目标块; 接收第二参与方 发送的第二桶标识和
第二块标识, 第二桶标识和第二块标识是对第二
数据集合中的第二数据进行计算得到的; 比对第
一桶标识和第二桶标识、 第一块标识和第二块标
识, 确定两个数据集合中不相 交的数据。 本公开
实施例利用桶标识和块标识联合表 示数据, 桶标
识和块标识作为数据的唯一表 示, 利用其可以在
保证数据安全性的同时快速筛选数据, 计算量
小, 节省了资源。
权利要求书3页 说明书12页 附图6页
CN 115481440 A
2022.12.16
CN 115481440 A
1.一种数据处理方法, 其特征在于, 该方法应用于纵向联邦学习的第 一参与方, 所述第
一参与方的第一数据集 合大于所述纵向联邦学习的第二 参与方的第二数据集 合;
所述数据处 理方法包括:
基于预设的函数对所述第 一数据集合中的每一第 一数据进行计算, 确定所述第 一数据
对应的第一桶标识和第一块标识; 所述第一桶标识用于标记存储所述第一数据的目标桶,
所述目标桶内包括多个块, 所述第一块标识用于标记所述目标桶内存储所述第一数据的目
标块;
接收所述第 二参与方发送的第 二桶标识和第 二块标识, 所述第 二桶标识和所述第 二块
标识是所述第二参与方基于所述预设的函数对所述第二数据集合中的每一第二数据进行
计算得到的;
比对所述第一桶标识和所述第二桶标识、 所述第一块标识和所述第二块标识, 确定所
述第一数据集 合与所述第二数据集 合中不相交的数据。
2.根据权利要求1所述的方法, 其特征在于, 比对所述第一桶标识和所述第二桶标识、
所述第一块标识和所述第二块标识, 确定所述第一数据集合与所述第二数据集合中不相交
的数据, 包括:
比对所述第一桶标识和所述第二桶标识、 所述第一块标识和所述第二块标识, 确定相
同的桶标识和相同的块标识;
将所述相同的桶标识作为目标桶标识、 所述相同的块标识作为目标块标识, 所述目标
桶标识和所述目标块标识指示的数据作为所述第一数据集合与所述第二数据集合中共有
的数据, 所述第一数据集合中除所述共有的数据之外的数据以及所述第二数据集合中除所
述共有的数据之外的数据为所述第一数据集 合与所述第二数据集 合中不相交的数据;
向所述第二参与 方发送所述目标桶标识和所述目标块标识, 以使所述第 二参与方基于
所述共有的数据与所述第一 参与方进行隐私求交加密处 理。
3.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一数据集合中的每一第 一数
据进行计算, 包括:
对所述第一数据集 合中的第一数据并行进行计算。
4.根据权利要求3所述的方法, 其特征在于, 所述并行对所述第 一数据集合中的第 一数
据进行计算, 包括:
根据单指令流多数据流方法, 对所述第一数据集 合中的第一数据并行进行计算。
5.根据权利要求3所述的方法, 其特征在于, 所述对所述第 一数据集合中的第 一数据并
行进行计算, 包括:
对所述第一数据集 合进行分割, 得到多个子数据集;
同时对所述多个子数据集中的第一数据并行进行计算。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述第一数据集合进行分割, 得到
多个子数据集, 包括:
基于所述第二数据集 合, 对所述第一数据集 合进行分割, 得到多个子数据集。
7.根据权利要求2所述的方法, 其特征在于, 所述比对所述第 一桶标识和所述第 二桶标
识、 所述第一 块标识和所述第二 块标识, 包括:
根据单指令流多数据流方法, 并行比对所述第一桶标识和所述第二桶标识、 所述第一权 利 要 求 书 1/3 页
2
CN 115481440 A
2块标识和所述第二 块标识。
8.一种数据处理方法, 其特征在于, 所述方法应用于纵向联邦学习的第 二参与方, 所述
第二参与方的第二数据集 合小于所述纵向联邦学习的第一 参与方的第一数据集 合;
所述数据处 理方法包括:
基于预设的函数对所述第 二数据集合中的每一第 二数据进行计算, 确定所述第 二数据
对应的第二桶标识和第二块标识; 所述第二桶标识用于标记存储所述第二数据的目标桶,
所述目标桶内包括多个块, 所述第二块标识用于标记所述目标桶内存储所述第二数据的目
标块;
将所述第二桶标识和所述第二 块标识发送至所述第一 参与方;
接收所述第 一参与方发送的目标桶标识和目标块标识; 所述目标桶标识是所述第 二桶
标识和第一桶标识中相同的桶标识, 所述目标块标识是所述第二块标识和 第一块标识中相
同的块标识, 所述第一桶标识和所述第一块标识是所述第一参与方基于预设的函数对所述
第一数据集 合中的每一第一数据进行计算得到的。
9.根据权利要求8所述的方法, 其特征在于, 所述对所述第 二数据集合中的每一第 二数
据进行计算, 包括:
对所述第二数据集 合中的第二数据并行进行计算。
10.根据权利要求9所述的方法, 其特征在于, 所述对所述第二数据集合中的第二数据
并行进行计算, 包括:
根据单指令流多数据流方法, 对所述第二数据集 合中的第二数据并行进行计算。
11.一种数据处理装置, 其特征在于, 该装置应用于纵向联邦学习的第一参与方, 所述
第一参与方的第一数据集 合大于所述纵向联邦学习的第二 参与方的第二数据集 合;
所述数据处 理装置包括:
第一计算模块, 用于基于预设的函数对所述第一数据集合中的每一第一数据进行计
算, 确定所述第一数据对应的第一桶标识和第一块标识; 所述第一桶标识用于标记存储所
述第一数据的目标桶, 所述 目标桶内包括多个块, 所述第一块标识用于标记所述 目标桶内
存储所述第一数据的目标块;
第一接收模块, 用于接收所述第二参与方发送的第二桶标识和第二块标识, 所述第二
桶标识和所述第二块标识是所述第二参与方基于所述预设的函数对所述第二数据集合中
的每一第二数据进行计算得到的;
比对模块, 用于比对所述第一桶标识和所述第二桶标识、 所述第一块标识和所述第二
块标识, 确定所述第一数据集 合与所述第二数据集 合中不相交的数据。
12.一种数据处理装置, 其特征在于, 所述装置应用于纵向联邦学习的第二参与方, 所
述第二参与方的第二数据集 合小于所述纵向联邦学习的第一 参与方的第一数据集 合;
所述数据处 理装置包括:
第二计算模块, 用于对所述第二数据集合中的每一第二数据进行计算, 确定所述第二
数据对应的第二桶标识和 第二块标识; 所述第二桶标识用于标记存储所述第二数据的目标
桶, 所述目标桶内包括多个块, 所述第二块标识用于标记所述 目标桶内存储所述第二数据
的目标块;
第二发送模块, 用于将所述第二桶标识和所述第二 块标识发送至所述第一 参与方;权 利 要 求 书 2/3 页
3
CN 115481440 A
3
专利 数据处理方法、装置、电子设备和介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:15:09上传分享