团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211156864.3 (22)申请日 2022.09.21 (71)申请人 广州大学 地址 510006 广东省广州市大 学城外环西 路230号 (72)发明人 林思昕 张美范 殷丽华 方滨兴 孙哲 李丹 (74)专利代理 机构 北京高航知识产权代理有限 公司 11530 专利代理师 覃钊雄 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/9535(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于本地差分隐私的大数据频数估计 方法 (57)摘要 本发明涉及数据分析技术领域, 公开了一种 基于本地差分隐私的大数据频数估计方法, 包括 如下步骤: 服务器对所有客户端进行等概率采 样, 并发送哈希函数集合和草图长度的取值; 客 户端对初始数据进行转换, 并根据哈希结果替换 对应数据坐标; 客户端利用本地差分隐私随机 响 应机制扰动上一步数据, 得到最新数据; 客户端 发送最新数据, 服务器根据采样的最新数据集合 训练频数预测模 型并发送给剩余所有客户端; 剩 余所有客户端根据预测模型判断持有数据是否 为高频数据; 若是高频数据, 以{ ‑1}m的方式进行 编码; 若不是高频数据, 先对初始数据进行转换, 再根据哈希结果替换对应数据坐标, 最后利用本 地差分隐私随机响应 机制扰动所有数据。 权利要求书2页 说明书4页 附图1页 CN 115455483 A 2022.12.09 CN 115455483 A 1.一种基于 本地差分隐私的大 数据频数估计方法, 其特 征在于, 包括如下步骤: 步骤S1, 服 务器设定客户端的采样率r, 并以等 概率对所有客户端的数据进行抽样; 步骤S2, 被抽样的客户端将其数据D先转换为 一维向量V; 步骤S3, 客户端等概率地从哈希函数集合Seth选择一个哈希函数hj, 并根据哈希 结果替 换对应的数据坐标 得到新的一维向量V ′; 步骤S4, 客户端根据差分隐私算法中的隐私预算ε, 利用随机响应机制对新的一维向量 V′进行转换使其满足 ε ‑本地化差分隐私; 步骤S5, 客户端将哈希函数索引j与最终的一维向量S发送至服 务器; 步骤S6, 服务器收集被采样的客户端的数据, 构 建k×m的草图, 并将采样的客户端的数 据按照哈希函数索引j存 储在对应的位置, 最后计算被采样客户端的数据项频 数F; 步骤S7, 服务器根据估计好的数据项频数, 利用Random Forest Regressor模型对数据 项频数进行学习, 得到轻量级频 数预测模型g; 步骤S8, 服务器设定高频数据的占比率θ, 并根据占比率θ计算出此时区分高频数据和 低频数据的阈值P, 最后将该阈值和轻量级频 数预测模型g发送给剩余未被采样的客户端; 步骤S9, 客户端根据接收到的轻量级频 数预测模型g区分自身数据是否为高频 数据; 步骤S10, 服务器将剩余未被采样的客户端的数据存储在草图中, 并且估计剩余未被采 样的客户端的数据项频 数。 2.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S1中, 服 务器对所有客户端发送包 含k个哈希函数的哈希集 合Seth和草图长度m的数值。 3.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S2中, 输入客户端数据D, 将客户端数据D转换为由 ‑1填充的数据{ ‑1}m。 4.根据权利要求3所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S3中, 客户端计算出hj(D)的值, 令v[hj(D)]=1, 其中, 将一维向量V中下标为hj(D)的数值 赋值为1, 得到新的一维向量V ′。 5.根据权利要求4所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S4中, 客户端以概率 保留V′中的每个坐标值, 以概率 扰动V′ 中的每个坐标值, 即将坐标为1的值扰动成 ‑1, 将坐标为 ‑1的值扰动成1, 并得到最 终的一维 向量S。 6.根据权利要求5所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S6中, 数据项频 数F(D)具体 计算方法如下: 其中, 是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数, 为利用草图统计的客户端数据D的所有数据项频数, n为采样客户端数据的数 据量。 7.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步权 利 要 求 书 1/2 页 2 CN 115455483 A 2骤S9中, 如果是高频数据, 则先执行步骤S2, 并且跳过步骤S3, 执行步骤S4和步骤S5; 如果不 是高频数据, 则按照步骤S2至步骤S5执 行。 8.根据权利要求7所述的基于本地差分隐私的大数据频数估计方法, 其特征在于, 于步 骤S10中, 如果为高频数据, 则其频数Fhigh为轻量级频数预测模型 g的预测结果g(D); 如果为 低频数据, 则其频 数Flow计算方法: 其中, θ为高频数据的占比率, m为草图的长度, n ′为剩余未被采样客户端的数据量, 是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数, 利用草图统计的客户端数据D的所有数据项频 数。权 利 要 求 书 2/2 页 3 CN 115455483 A 3
专利 一种基于本地差分隐私的大数据频数估计方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:11:21
上传分享
举报
下载
原文档
(491.3 KB)
分享
友情链接
GB-T 32059-2015 高速动车组车窗、车门抗风压载荷疲劳试验方法.pdf
GM-T 0016-2012 智能密码钥匙密码应用接口规范.pdf
美创 数据安全解决方案简介.pdf
GB-T 4303-2008 船用救生衣.pdf
AQ 1008-2007 矿山救护规程.pdf
T-XLTDA 005—2021 地方特色乳制品 风味奶酪.pdf
GM-T 0020-2023 证书应用综合服务接口规范.pdf
NIST评估信息安全持续监控项目指南评估方法一 .pdf
DB37-T 4649.3—2023 智能制造 第3部分:数字化车间建设指南 山东省.pdf
GB-T 42508-2023 投资项目风险评估指南.pdf
GW0206-2014 国家电子政务外网 接入政务外网的局域网安全技术规范.pdf
T-CAQI 225—2021 钢制模块化装配污水处理池体技术要求.pdf
GB-T 17393-2008 覆盖奥氏体不锈钢用绝热材料规范.pdf
GB-T 41131-2021 科技馆展览教育服务规范.pdf
GB-T 3536-2008 石油产品 闪点和燃点的测定 克利夫兰开口杯法.pdf
GB-T 3565.4-2022 自行车安全要求 第4部分:车闸试验方法.pdf
GB-T 5594.4-2015 电子元器件结构陶瓷材料性能测试方法 第4部分:介电常数和介质损耗角正切值的测试方法.pdf
DB37-T 3642-2019 全氟己酮灭火系统设计、施工及验收规范 山东省.pdf
爱分析 2023大模型厂商全景报告 .pdf
GB-T 22719.1-2008 交流低压电机散嵌绕组匝间绝缘 第1部分:试验方法.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(491.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。