团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211250852.7 (22)申请日 2022.10.13 (71)申请人 广州图灵科技有限公司 地址 510000 广东省广州市天河区高普路 1033号501室 (72)发明人 张越 周涛 何兴国 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称 一种基于密度优化的k-匿名数据发布方法 (57)摘要 本发明公开了一种基于密度优化的k ‑匿名 数据发布方法, 涉及数据安全和隐私保护领域。 该方法包括如下步骤: 初始中心点选取、 数据聚 类、 聚类调整、 数据泛化。 本发明通过数据集的密 度特征, 利用密度阈值剔除部分离群点噪声, 选 择初始聚类中心点, 避免算法陷入局部最优, 从 而保证算法的稳定性, 然后采用桶泛化算法对数 据进行泛化, 减少了数据发布的信息损失。 权利要求书1页 说明书3页 附图2页 CN 115544568 A 2022.12.30 CN 115544568 A 1.一种基于密度优化的k ‑匿名数据发布方法, 其特 征在于, 包括以下步骤: S1、 初始中心点选取; S2、 数据聚类; S3、 聚类调整; S4、 数据泛化。 2.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S1中, 初始中心点选取具体为, 依据数据集的密度特征来选择分布均匀并且符合数据集分 布特点的初始聚类中心点, 从而 避免随机性对聚类结果的影响。 3.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S2中, 数据聚类具体为, 对数据集中每一条数据 记录, 计算其与生成的所有聚类中心之间的 欧氏距离, 并把它加入到距离最近的聚类中心, 直到所有的数据记录都被分配到相应的类 中, 计算新类的中心点, 并对旧中心点进行 更新。 4.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S3中, 聚类调整具体为, 对每一个聚类簇的大小进行调整, 使其满足k ‑匿名原则, 即每一个 聚类簇中包含的数据条数等于用户传入的参数k, 在数据量大于k的聚类中抽取中心点最远 的数据, 再将数据分配给距离最近且数据量小于k的聚类簇, 最后 将多余的数据按距离大小 分配到最近的聚类簇中。 5.根据权利要求1所述的一种基于密度优化的k ‑匿名数据发布方法, 其特征在于: 所述 S4中, 数据泛化具体为, 通过桶泛化操作将数据的信息进行概化, 扩大数据的区间, 或者进 行语义上的概 括, 从而隐藏属性的真实值。权 利 要 求 书 1/1 页 2 CN 115544568 A 2一种基于密 度优化的k ‑匿名数据发布方 法 技术领域 [0001]本发明属于数据安全与隐私保护领域, 具体为一种基于密度优化的k ‑匿名数据发 布方法。 背景技术 [0002]随着互联网的飞速发展, 为了挖掘 大数据的潜在价值, 享受大数据带来的便利和 快捷, 首先需要对数据进 行发布。 如果待发布的数据不经过隐私保护处理被直接发布, 那么 不法分子可能会利用各种途径窃取用户的敏感信息, 造成用户的隐私泄 露和财产损失。 [0003]目前已经存在许多隐私保护的数据发布方法, 但 现有的隐私保护的数据发布方法 普遍存在着信息损失严重、 算法稳定性差等弊端。 如现有的利用聚类算法实现k ‑匿名模型 的方法未考虑到离群点噪声对聚类结果的影响且采用传统的分类树进行距离度量和属 性 泛化, 易造成严重的信息损失; 利用k ‑means均值聚类实现k ‑匿名的算法虽然效率高, 但是 由于其初始聚类中心点的选取具有不确定性, 因此容易陷入局部最优从而降低算法的稳定 性。 [0004]因此, 如何设计一种数据发布方法, 使其能够在 聚类结果稳定 的前提下发布受损 程度小的数据, 已成为本领域 技术人员亟需解决的难题。 发明内容 [0005]本发明的目的在于提供一种基于密度 优化的k‑匿名数据发布方法, 以解决上述背 景技术中提出的问题。 [0006]本发明解决上述技术问题的技术方案是: 一种基于密度 优化的k‑匿名数据发布方 法, 包括以下步骤: S1、 初始中心点选取; S2、 数据聚类; S3、 聚类调整; S4、 数据泛化。 [0007]具体地, 所述的一种基于密度优化的k匿名数据发布方法包括以下 具体步骤。 [0008]优选地, 所述S1中, 初始中心点选取的具体流程为: 首先要依据数据集的密度特征 选择初始聚类中心 点, 选出中心 点分布均匀, 符合数据集的分布特点, 从而避免随机性对聚 类结果的影响。 [0009]优选地, 所述S2中, 数据聚类的具体流程为: 对数据集中每一条数据记录, 计算其 与生成的所有聚类中心点之间的欧氏距离, 并把它加入到距离最近的聚类中心; 直到所有 的数据记录都被分配到相应的类中, 计算 新类的中心点, 并对旧的中心点进行 更新。 [0010]优选地, 所述S3中, 聚类调整的具体流程为: 对每一个聚类簇的大小进行调整, 使 其满足k‑匿名原则。 即使每一个聚类簇中包含的数据条数等于用户传 入的参数k, 在数据量 大于k的聚类簇中抽取距离中心 点最远的数据, 再将数据分配给距离最近且数据量小于k的说 明 书 1/3 页 3 CN 115544568 A 3
专利 一种基于密度优化的k-匿名数据发布方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:11:12
上传分享
举报
下载
原文档
(317.4 KB)
分享
友情链接
NIST评估信息安全持续监控项目指南评估方法一 .pdf
LY-T 3104-2019 沟眶象和臭椿沟眶象防治技术规程.pdf
GB-T 276-2013 滚动轴承 深沟球轴承 外形尺寸.pdf
DB45-T 2048-2019 微型消防站建设管理规范 广西壮族自治区.pdf
GB-T 43624-2023 湿地术语.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
T-NIFA 26—2023 移动金融客户端应用软件上架资质指引.pdf
DB42-T 2071-2023 建设项目工程总承包计价规程 湖北省.pdf
GM-T 0035.2-2014 射频识别系统密码应用技术要求 第2部分:电子标签芯片密码应用技术要求.pdf
GB-T 35190-2017 海水中碘-131的测定 β计数法.pdf
GB-T 35282-2023 信息安全技术 电子政务移动办公系统安全技术规范.pdf
悬镜SDL-DevSecOps安全开发建设v6.pdf
GB-T 12604.10-2023 无损检测 术语 第10部分:磁记忆检测.pdf
GB-T 32211-2015 液相色谱用可变波长光度检测器的测试方法.pdf
GB-T 34131-2023 电力储能用电池管理系统.pdf
GB-T 39044-2020 政务服务平台接入规范.pdf
DB3502-T 056.1-2020 政务信息共享协同平台 第1部分:总体设计 厦门市.pdf
GB-T 29246-2023 信息安全技术 信息安全管理体系 概述和词汇.pdf
GB-T 18959-2023 木材保管规程.pdf
T-CACM 001—2018 古本易筋经十二势导引法技术规范.pdf
1
/
3
7
评价文档
赞助2.5元 点击下载(317.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。