(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211151764.1
(22)申请日 2022.09.21
(71)申请人 广州大学
地址 510006 广东省广州市番禺区大 学城
外环西路23 0号
(72)发明人 胡丽 梁家铭 张镇鑫 李进
黄腾 闫红洋
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 黄卫萍
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 21/62(2013.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于生成对抗网络的隐私保护方法及
系统
(57)摘要
本发明涉及一种基于生成对抗网络的隐私
保护方法及系统, 其方法包括步骤: S1、 利用高质
量condition ‑gan模型D ‑G将使用敏感标记数据
集Dtr进行训练, 当判别模型和生成模型达到了
纳什均衡时GAN模型收敛, 得到高质量的生成器;
S2、 通过训练过的GAN模型生成不同数量的与原
数据集独立且同分布并达到与原始数据训练模
型相同分类精度的数据Dg‑tr; S3、 使用获得的生
成数据Dg‑tr训练出受保护的分类模型, 使用随机
梯度下降SGD算法来训练Dg‑tr上的受保护模型。
本发明在保持原始分类器测试集准确性的同时,
缓解对目标模 型的成员推断攻击, 并提高了在小
数据集上训练的GAN生成图像数据及表 格数据的
可用性。
权利要求书1页 说明书8页 附图2页
CN 115456096 A
2022.12.09
CN 115456096 A
1.一种基于生成对抗网络的隐私保护方法, 其特 征在于, 包括以下步骤:
S1、 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训练, 当判别模
型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器;
S2、 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并达到与原始数
据训练模型相同分类精度的数据Dg‑tr;
S3、 使用获得的生成数据Dg‑tr训练出受保护的分类模型, 使用随机梯度下降SGD算法来
训练Dg‑tr上的受保护模型。
2.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S1
的具体实现过程包括: 选择在小 数据集上生成高质量数据的St lyeGAN2‑ada结构, 并设计截
断技巧改进训练过程, 对于表格数据, 选择CTGAN结构, 并结合聚合机制确保生成数据的可
用性。
3.根据权利要求2所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S1
实现过程的具体表达公式如下:
其中, D(x|y)表示判别器, G(z|y)表示 生成器, Px(z)表示生成器噪声采样的分布。
4.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S2
实现过程的具体表达式如下:
Dg‑tr=G(z|y),z~pz
其中, Dg‑tr表示生成的训练数据, G(z|y)表示 生成器, z表示从噪声分布Pz采样的噪声。
5.根据权利要求1所述的一种基于生成对抗网络的隐私保护方法, 其特征在于, 步骤S3
实现过程的具体表达式如下:
其中, fθp(x)表示训练的受保护模型, Ω( θp)是一个正则化项, λ是一个超参数。
6.一种基于生成对抗网络的隐私保护系统, 包括:
数据集训练模块: 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训
练, 当判别模型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器;
数据Dg‑tr获取模块: 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并
达到与原始数据训练模型相同分类精度的数据Dg‑tr;
受保护模型训练模块: 使用获得的生成数据 Dg‑tr训练出受保护的分类模型, 使用随机梯
度下降SGD算法来训练Dg‑tr上的受保护模型。权 利 要 求 书 1/1 页
2
CN 115456096 A
2一种基于生成 对抗网络的隐私 保护方法及系统
技术领域
[0001]本发明涉及计算机隐私保护技术领域, 尤其涉及 一种基于生成对抗网络的隐私保
护方法及系统。
背景技术
[0002]机器学习ML的成功依赖于大规模数据集的可用性。 然而, 最近的研究表明, 在这类
数据集上训练的模型容易受到隐私攻击, 而针对其攻击有着相应的隐私保护防御方法, 是
计算机隐私保护研究与应用领域中的基本课题。 尽管现有的工作提出了各种各样的MIA防
御方法, 如差分隐私和对抗 正则化等, 但与原 始模型相比, 它 们的性能受到 了损害。
[0003]stylegan是英伟达2019年提出来的一种新的自动学习的、 无监督的高级属性分离
对抗生成网络。 它 更加直观的对图片的不同属 性进行了解耦, 能够人为的控制生成图片的
主体和细节, 既保证了图片的多样性, 也保证了图片的生成质量。 在图片生成评价指标上,
stylegan都是最先进水平。
[0004]stylegan2是stylegan的改进版, 解决了stylegan生成图片中带有水滴斑纹的问
题。 而且, 因为stylegan和stylegan2需要大数据集的支持, 所以使用的都是小数据集, 需要
利用数据增强的方式进行数据扩增, 但是数据增强又会导致生成图片带有数据增强的痕
迹。 基于上述 考虑, 最终选择了styleg an‑ada作为生成模型。
[0005]论文“Modeling Tabular data using Conditional GAN”设计出了CTGAN, 解决了
对表格数据建模的挑战, 因为对表格数据建模是一件困难的事情, 表格通常包含了连续列
和离散列, 而离 散列有时是不平衡的, 这使得对表格建模变得困难。
[0006]因此, 如何保持原始分类器测试集准确性的同时, 缓解对目标模型的成员推断攻
击是目前 此应用领域需要解决的问题。
发明内容
[0007]为解决现有技术所存在的技术问题, 本发明提供一种基于生成对抗网络的隐私保
护方法及系统, 通过训练GAN模型了解训练数据的分布, 然后通过这个GAN模型创建一个新
的数据集, 最后使用新的数据集来训练分类器, 在保持原始分类器测试集准确性的同时, 缓
解对目标模型的成员推断攻击, 并提高了在小数据集上训练的GAN生成图像数据及表格数
据的可用性。
[0008]本发明方法采用以下技术方案来实现: 一种基于生成对抗网络 的隐私保护方法,
包括以下步骤:
[0009]S1、 利用高质量condition ‑gan模型D ‑G将使用敏感标记数据集Dtr进行训练, 当判
别模型和生成模型达 到了纳什均衡时GAN模型收敛, 得到高质量的生成器;
[0010]S2、 通过训练过的GAN模型生成不同数量的与原数据集独立且同分布并达到与原
始数据训练模型相同分类精度的数据Dg‑tr;
[0011]S3、 使用获得的生成数据Dg‑tr训练出受保护的分类模型, 使用随机梯度下降SGD算说 明 书 1/8 页
3
CN 115456096 A
3
专利 一种基于生成对抗网络的隐私保护方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:24上传分享