团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211151764.1 (22)申请日 2022.09.21 (71)申请人 广州大学 地址 510006 广东省广州市番禺区大 学城 外环西路23 0号 (72)发明人 胡丽 梁家铭 张镇鑫 李进  黄腾 闫红洋  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 黄卫萍 (51)Int.Cl. G06K 9/62(2022.01) G06F 21/62(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于生成对抗网络的隐私保护方法及 系统 (57)摘要 本发明涉及一种基于生成对抗网络的隐私 保护方法及系统, 其方法包括步骤: S1、 利用高质 量condition ‑gan模型D ‑G将使用敏感标记数据 集Dtr进行训练, 当判别模型和生成模型达到了 纳什均衡时GAN模型收敛, 得到高质量的生成器; S2、 通过训练过的GAN模型生成不同数量的与原 数据集独立且同分布并达到与原始数据训练模 型相同分类精度的数据Dg‑tr; S3、 使用获得的生 成数据Dg‑tr训练出受保护的分类模型, 使用随机 梯度下降SGD算法来训练Dg‑tr上的受保护模型。 本发明在保持原始分类器测试集准确性的同时, 缓解对目标模 型的成员推断攻击, 并提高了在小 数据集上训练的GAN生成图像数据及表 格数据的 可用性。 权利要求书1页 说明书8页 附图2页 CN 115456096 A 2022.12.09 CN 115456096 A 1.一种基于生成对抗网络的隐私保护方法, 其特 征在于, 包括以下步骤: S1、 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训练, 当判别模 型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器; S2、 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并达到与原始数 据训练模型相同分类精度的数据Dg‑tr; S3、 使用获得的生成数据Dg‑tr训练出受保护的分类模型, 使用随机梯度下降SGD算法来 训练Dg‑tr上的受保护模型。 2.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S1 的具体实现过程包括: 选择在小 数据集上生成高质量数据的St lyeGAN2‑ada结构, 并设计截 断技巧改进训练过程, 对于表格数据, 选择CTGAN结构, 并结合聚合机制确保生成数据的可 用性。 3.根据权利要求2所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S1 实现过程的具体表达公式如下: 其中, D(x|y)表示判别器, G(z|y)表示 生成器, Px(z)表示生成器噪声采样的分布。 4.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S2 实现过程的具体表达式如下: Dg‑tr=G(z|y),z~pz 其中, Dg‑tr表示生成的训练数据, G(z|y)表示 生成器, z表示从噪声分布Pz采样的噪声。 5.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S3 实现过程的具体表达式如下: 其中, fθp(x)表示训练的受保护模型, Ω( θp)是一个正则化项, λ是一个超参数。 6.一种基于生成对抗网络的隐私保护系统, 包括: 数据集训练模块: 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训 练, 当判别模型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器; 数据Dg‑tr获取模块: 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并 达到与原始数据训练模型相同分类精度的数据Dg‑tr; 受保护模型训练模块: 使用获得的生成数据 Dg‑tr训练出受保护的分类模型, 使用随机梯 度下降SGD算法来训练Dg‑tr上的受保护模型。权 利 要 求 书 1/1 页 2 CN 115456096 A 2一种基于生成 对抗网络的隐私 保护方法及系统 技术领域 [0001]本发明涉及计算机隐私保护技术领域, 尤其涉及 一种基于生成对抗网络的隐私保 护方法及系统。 背景技术 [0002]机器学习ML的成功依赖于大规模数据集的可用性。 然而, 最近的研究表明, 在这类 数据集上训练的模型容易受到隐私攻击, 而针对其攻击有着相应的隐私保护防御方法, 是 计算机隐私保护研究与应用领域中的基本课题。 尽管现有的工作提出了各种各样的MIA防 御方法, 如差分隐私和对抗 正则化等, 但与原 始模型相比, 它 们的性能受到 了损害。 [0003]stylegan是英伟达2019年提出来的一种新的自动学习的、 无监督的高级属性分离 对抗生成网络。 它 更加直观的对图片的不同属 性进行了解耦, 能够人为的控制生成图片的 主体和细节, 既保证了图片的多样性, 也保证了图片的生成质量。 在图片生成评价指标上, stylegan都是最先进水平。 [0004]stylegan2是stylegan的改进版, 解决了stylegan生成图片中带有水滴斑纹的问 题。 而且, 因为stylegan和stylegan2需要大数据集的支持, 所以使用的都是小数据集, 需要 利用数据增强的方式进行数据扩增, 但是数据增强又会导致生成图片带有数据增强的痕 迹。 基于上述 考虑, 最终选择了styleg an‑ada作为生成模型。 [0005]论文“Modeling  Tabular data using Conditional  GAN”设计出了CTGAN, 解决了 对表格数据建模的挑战, 因为对表格数据建模是一件困难的事情, 表格通常包含了连续列 和离散列, 而离 散列有时是不平衡的, 这使得对表格建模变得困难。 [0006]因此, 如何保持原始分类器测试集准确性的同时, 缓解对目标模型的成员推断攻 击是目前 此应用领域需要解决的问题。 发明内容 [0007]为解决现有技术所存在的技术问题, 本发明提供一种基于生成对抗网络的隐私保 护方法及系统, 通过训练GAN模型了解训练数据的分布, 然后通过这个GAN模型创建一个新 的数据集, 最后使用新的数据集来训练分类器, 在保持原始分类器测试集准确性的同时, 缓 解对目标模型的成员推断攻击, 并提高了在小数据集上训练的GAN生成图像数据及表格数 据的可用性。 [0008]本发明方法采用以下技术方案来实现: 一种基于生成对抗网络 的隐私保护方法, 包括以下步骤: [0009]S1、 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训练, 当判 别模型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器; [0010]S2、 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并达到与原 始数据训练模型相同分类精度的数据Dg‑tr; [0011]S3、 使用获得的生成数据Dg‑tr训练出受保护的分类模型, 使用随机梯度下降SGD算说 明 书 1/8 页 3 CN 115456096 A 3

.PDF文档 专利 一种基于生成对抗网络的隐私保护方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生成对抗网络的隐私保护方法及系统 第 1 页 专利 一种基于生成对抗网络的隐私保护方法及系统 第 2 页 专利 一种基于生成对抗网络的隐私保护方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。