团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211117463.7 (22)申请日 2022.09.14 (71)申请人 北京华云安信息技 术有限公司 地址 100094 北京市海淀区丰豪东路9号2 号楼10层4单 元1001 (72)发明人 徐艺庭 白兴伟  (74)专利代理 机构 北京华专卓 海知识产权代理 事务所(普通 合伙) 11664 专利代理师 王一 (51)Int.Cl. G06F 8/53(2018.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 一种敏感信息检测方法、 装置、 设备及存储 介质 (57)摘要 本公开的实施例提供了一种敏感信息检测 方法、 装置、 设备及存储介质, 属于数据安全领 域。 该方法包括: 对待检测程序进行反编译处理 得到对应的汇编语 言代码; 对所述汇编语言代码 进行字符串提取, 生成数据集; 对所述数据集进 行聚类, 并对 所述数据集中的数据对象点形成的 簇进行分类; 判定所述簇是否是敏感信息。 以此 方式, 可以实现高效精准识别待检测程序中的敏 感信息的类别及内容; 并且可以达到采用本公开 的检测方法后可自动化检测应用程序中不同场 景下敏感信息的目的。 权利要求书1页 说明书7页 附图2页 CN 115373694 A 2022.11.22 CN 115373694 A 1.一种敏感信息检测方法, 其特 征在于, 所述方法包括: 对待检测程序进行反编译处 理得到对应的汇编语言代码; 对所述汇编语言代码进行字符串提取, 生成数据集; 对所述数据集进行聚类, 并对所述数据集中的数据对象点形成的簇进行分类; 判定所述簇是否是 敏感信息 。 2.根据权利要求1所述的方法, 其特 征在于, 所述反编译处 理包括: 若所述待检测程序为加固的应用程序, 对所述加固的应用程序进行技术识别, 使用对 应的加固方法逆向工具进行逆向处 理, 并完成反编译处 理。 3.根据权利要求1所述的方法, 其特 征在于, 所述进行字符串提取包括: 根据预设字符串提取 标准, 从所述汇编语言代码中提取 敏感信息相关的预设字符串。 4.根据权利要求3所述的方法, 其特 征在于, 所述对所述数据集进行聚类包括: 从数据集中任意选取一个数据对象点P; 以所选取的数据对象点P为核心点, 则找出所有从P密度可达的数据对象点, 形成一个 簇; 如果选取的数据对象点P是边缘点, 选取另一个数据对象点; 重复以上步骤, 直到所有 数据对象点被处 理。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述数据对象点形成的簇进行分类 包括: 其中, 将在聚类过程中形成的所有簇分为两种, 通过所述预设字符串提取标准获取的 标准簇和其 他簇。 6.根据权利要求5所述的方法, 其特 征在于, 所述判定所述簇是否是 敏感信息包括: 判断所述标准簇所属的敏感信息类别; 对所述其他簇进行分析, 判断所述其他簇对应的字符串是否为敏感信息; 若为敏感信 息, 确定其 他簇对应的字符串是否为 新的敏感信息类别, 添加到所述预设字符串提取 标准。 7.一种敏感信息检测装置, 其特 征在于, 所述装置包括: 反编译模块, 用于对待检测程序进行反编译处 理得到对应的汇编语言代码; 数据集生成模块, 用于对所述汇编语言代码进行字符串提取, 生成数据集; 聚类分类模块, 用于对所述数据集进行聚类, 并对所述数据集中的数据对象点形成的 簇进行分类; 判定模块, 用于判定所述是否是 敏感信息 。 8.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 9.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 其中, 所述计算 机指令用于使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 115373694 A 2一种敏感信息检测方 法、 装置、 设备及存储介质 技术领域 [0001]本公开涉及网络数据安全技术领域, 具体涉及一种程序敏感信息检测方法、 装置、 设备及存 储介质。 背景技术 [0002]APP内包含较多的敏感信息, 例如开发人员在为应用程序存储数据时未指定用户 的正确文件权限, 造成这些文件全局可读并且可以由其他应用程序访问而不需要权限, 使 得APP数据库文件存在泄露的可能, 其中泄露的数据库可能包含敏感信息。 而APP敏感信息 检测, 多采用人工手动点击功能点页面的方式进行检测, 并且不同评估检测人员经验参差 不齐、 检查标准 不同、 检查仔细程度不同, 可能造成敏感信息泄 露等问题。 发明内容 [0003]本公开提供了一种敏感信息检测方法、 装置、 设备及存储介质。 根据本公开的第一 方面, 提供了一种敏感信息检测方法。 该方法包括: 对待检测程序进 行反编译处理得到对应 的汇编语言代码; 对汇编语言代码进行字符串提取, 生成数据集; 对数据集进行聚类, 并对 数据集中的数据对象点形成的簇进行分类; 判定 簇是否是 敏感信息 。 [0004]进一步的, 反编译处理包括: 若待检测程序为加固的应用程序, 对加固的应用程序 进行技术识别, 使用对应的加固方法逆向工具进行逆向处 理, 并完成反编译处 理。 [0005]进一步的, 进行字符串提取包括: 根据预设字符串提取标准, 从汇编语言代码中提 取敏感信息相关的预设字符串。 [0006]进一步的, 对数据集进行聚类包括: 从数据集中任意选取一个数据对象点P; 以所 选取的数据对象点P为核心 点, 则找出所有从P密度可达的数据对象点, 形成一个簇; 如果选 取的数据对象点P是边缘点, 选取另一个数据对象点; 重复以上步骤, 直到所有数据对象点 被处理。 [0007]进一步的, 对数据 对象点形成的簇进行分类包括: 其中, 将在聚类过程中形成的所 有簇分为两种, 通过 预设字符串提取 标准获取的标准簇和其 他簇。 [0008]进一步的, 判定簇是否是敏感信息包括: 判断所述标准簇所属的敏感信息类别; 对 所述其他簇进行分析, 判断所述其他簇对应的字符串对应的信息是否为敏感信息; 若为敏 感信息, 确定其他簇对应的字符串的敏感信息为新的敏感信息类别, 添加到预设字符串提 取标准。 [0009]根据本公开的第二方面, 提供了一种敏感信息检测装置。 该装置包括: 反编译模 块, 用于对待检测程序进 行反编译处理得到对应的汇编语言代码; 数据集生 成模块, 用于对 汇编语言代码进行字符串提取, 生成数据集; 聚类分类模块, 用于对数据集进行聚类, 并对 数据集中的数据对象点形成的簇进行分类; 判定模块, 用于判定是否是 敏感信息 。 [0010]根据本公开的第三方面, 提供了一种电子设备。 该电子设备包括: 存储器和处理 器, 所述存 储器上存 储有计算机程序, 所述处 理器执行所述程序时实现如以上 所述的方法。说 明 书 1/7 页 3 CN 115373694 A 3

.PDF文档 专利 一种敏感信息检测方法、装置、设备及存储介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种敏感信息检测方法、装置、设备及存储介质 第 1 页 专利 一种敏感信息检测方法、装置、设备及存储介质 第 2 页 专利 一种敏感信息检测方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。