团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211250852.7 (22)申请日 2022.10.13 (71)申请人 广州图灵科技有限公司 地址 510000 广东省广州市天河区高普路 1033号501室 (72)发明人 张越 周涛 何兴国  (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称 一种基于密度优化的k-匿名数据发布方法 (57)摘要 本发明公开了一种基于密度优化的k ‑匿名 数据发布方法, 涉及数据安全和隐私保护领域。 该方法包括如下步骤: 初始中心点选取、 数据聚 类、 聚类调整、 数据泛化。 本发明通过数据集的密 度特征, 利用密度阈值剔除部分离群点噪声, 选 择初始聚类中心点, 避免算法陷入局部最优, 从 而保证算法的稳定性, 然后采用桶泛化算法对数 据进行泛化, 减少了数据发布的信息损失。 权利要求书1页 说明书3页 附图2页 CN 115544568 A 2022.12.30 CN 115544568 A 1.一种基于密度优化的k ‑匿名数据发布方法, 其特 征在于, 包括以下步骤: S1、 初始中心点选取; S2、 数据聚类; S3、 聚类调整; S4、 数据泛化。 2.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S1中, 初始中心点选取具体为, 依据数据集的密度特征来选择分布均匀并且符合数据集分 布特点的初始聚类中心点, 从而 避免随机性对聚类结果的影响。 3.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S2中, 数据聚类具体为, 对数据集中每一条数据 记录, 计算其与生成的所有聚类中心之间的 欧氏距离, 并把它加入到距离最近的聚类中心, 直到所有的数据记录都被分配到相应的类 中, 计算新类的中心点, 并对旧中心点进行 更新。 4.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S3中, 聚类调整具体为, 对每一个聚类簇的大小进行调整, 使其满足k ‑匿名原则, 即每一个 聚类簇中包含的数据条数等于用户传入的参数k, 在数据量大于k的聚类中抽取中心点最远 的数据, 再将数据分配给距离最近且数据量小于k的聚类簇, 最后 将多余的数据按距离大小 分配到最近的聚类簇中。 5.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S4中, 数据泛化具体为, 通过桶泛化操作将数据的信息进行概化, 扩大数据的区间, 或者进 行语义上的概 括, 从而隐藏属性的真实值。权 利 要 求 书 1/1 页 2 CN 115544568 A 2一种基于密 度优化的k ‑匿名数据发布方 法 技术领域 [0001]本发明属于数据安全与隐私保护领域, 具体为一种基于密度优化的k ‑匿名数据发 布方法。 背景技术 [0002]随着互联网的飞速发展, 为了挖掘 大数据的潜在价值, 享受大数据带来的便利和 快捷, 首先需要对数据进 行发布。 如果待发布的数据不经过隐私保护处理被直接发布, 那么 不法分子可能会利用各种途径窃取用户的敏感信息, 造成用户的隐私泄 露和财产损失。 [0003]目前已经存在许多隐私保护的数据发布方法, 但 现有的隐私保护的数据发布方法 普遍存在着信息损失严重、 算法稳定性差等弊端。 如现有的利用聚类算法实现k ‑匿名模型 的方法未考虑到离群点噪声对聚类结果的影响且采用传统的分类树进行距离度量和属 性 泛化, 易造成严重的信息损失; 利用k ‑means均值聚类实现k ‑匿名的算法虽然效率高, 但是 由于其初始聚类中心点的选取具有不确定性, 因此容易陷入局部最优从而降低算法的稳定 性。 [0004]因此, 如何设计一种数据发布方法, 使其能够在 聚类结果稳定 的前提下发布受损 程度小的数据, 已成为本领域 技术人员亟需解决的难题。 发明内容 [0005]本发明的目的在于提供一种基于密度 优化的k‑匿名数据发布方法, 以解决上述背 景技术中提出的问题。 [0006]本发明解决上述技术问题的技术方案是: 一种基于密度 优化的k‑匿名数据发布方 法, 包括以下步骤: S1、 初始中心点选取; S2、 数据聚类; S3、 聚类调整; S4、 数据泛化。 [0007]具体地, 所述的一种基于密度优化的k匿名数据发布方法包括以下 具体步骤。 [0008]优选地, 所述S1中, 初始中心点选取的具体流程为: 首先要依据数据集的密度特征 选择初始聚类中心 点, 选出中心 点分布均匀, 符合数据集的分布特点, 从而避免随机性对聚 类结果的影响。 [0009]优选地, 所述S2中, 数据聚类的具体流程为: 对数据集中每一条数据记录, 计算其 与生成的所有聚类中心点之间的欧氏距离, 并把它加入到距离最近的聚类中心; 直到所有 的数据记录都被分配到相应的类中, 计算 新类的中心点, 并对旧的中心点进行 更新。 [0010]优选地, 所述S3中, 聚类调整的具体流程为: 对每一个聚类簇的大小进行调整, 使 其满足k‑匿名原则。 即使每一个聚类簇中包含的数据条数等于用户传 入的参数k, 在数据量 大于k的聚类簇中抽取距离中心 点最远的数据, 再将数据分配给距离最近且数据量小于k的说 明 书 1/3 页 3 CN 115544568 A 3

.PDF文档 专利 一种基于密度优化的k-匿名数据发布方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于密度优化的k-匿名数据发布方法 第 1 页 专利 一种基于密度优化的k-匿名数据发布方法 第 2 页 专利 一种基于密度优化的k-匿名数据发布方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。