(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211134642.1
(22)申请日 2022.09.19
(71)申请人 浪潮软件集团有限公司
地址 250100 山东省济南市高新区科航路
2877号
(72)发明人 刘思远
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 孙园园
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/216(2020.01)
G06K 9/62(2022.01)
(54)发明名称
基于审计数据的数据库表分类方法及系统
(57)摘要
本发明公开了基于审计数据的数据库表分
类方法及系统, 属于数据库表处理技术领域, 本
发明要解决的技术问题为如何基于用户对数据
库的使用方式及对应的数据进行分类, 确保能够
更好的组织符合用户使用习惯的数据存储位置,
从而提升读写效率及读写, 采用的技术方案为:
该方法具体如下: 获取统计数据: 统计数据包括
统计表的读取数据、 统计写入数据以及统计整个
数据库大小; 获取分类图表: 通过统计数据计算
数据库表的读写特性, 进而完成分类图表; 划分
类别: 根据用户的类别需求及分类图表, 将数据
库表划分为用户需求的类别; 优化存储: 根据数
据库表的类别, 优化数据库表的存储结构, 提升
读写性能, 进 而适应对应的审计策略。
权利要求书3页 说明书10页 附图1页
CN 115510228 A
2022.12.23
CN 115510228 A
1.一种基于审计数据的数据库表分类方法, 其特征在于, 该方法是基于审计时产生的
读写数据, 采用TF ‑IDF的相似度模型, 将数据库表与用户使用需求进行绑定, 并进行分类;
并将分类后的数据库表按照图标进行展示和输出供数据库管理人员进行数据库性能提升
和审计; 具体如下:
获取统计数据: 统计数据包括统计表的读取数据、 统计写入数据以及统计整个数据库
大小;
获取分类图表: 通过统计数据计算数据库表的读写特性, 进 而完成分类图表;
划分类别: 根据用户的类别需求及分类图表, 将数据库表划分为用户需求的类别;
优化存储: 根据数据库表 的类别, 优化数据库表 的存储结构, 提升读写性能, 进而适应
对应的审计策略。
2.根据权利要求1所述的基于审计数据的数据库表分类方法, 其特征在于, 获取统计数
据具体如下:
注册对于数据库表的表读写统计, 得到数据库中每一个表的读写数据;
在数据库初始化时, 注 册整个数据库的数据读写统计, 得到数据库的大小;
将数据库表基于读写特性及表大小分为 四个象限, 即基于数据库表的读写性 能的象限
分类。
3.根据权利要求1所述的基于审计数据的数据库表分类方法, 其特征在于, 数据库基于
读写比和表大小划分数据库的标的特 征, 具体如下:
数据库系统的读取仅为SELECT的操作数据, 写入包含INSERT、 DELETE及UPDATE的操作
数据;
注册时, 将SELECT注册为读统计, 将INSERT、 DELETE及UPDATE注册为写统计, 将表注册
为大小统计, 获取到分类所依赖的表读写数据。
4.根据权利要求1所述的基于审计数据的数据库表分类方法, 其特征在于, 计算数据库
表的读写特性具体如下:
设数据库的任意 一表的读比例为x, 写比例为y, 则:
y=1‑x;
对于数据库中的所有表, 以x轴为读写比, y轴为表大小, 生成一个离散图表用于表示数
据库中表的分布。
5.根据权利要求1所述的基于审计数据的数据库表分类方法, 其特征在于, 划分类别
时, 根据用户输入需要划分的类别数量, 在横轴上等距划分为用户所需类别;
当用户输入的类别数量 为2时, 划分原则具体如下:
以表大小的一半为横轴, 读写比5 0%为纵轴, 将 读写比图划分为四个象限;
处于第一象限的表为读比例大于设定读比例阈值的大写比例表; 第 二象限为写比例大
于设定写比例 阈值的大写比例表; 第三象限为写比例小于设定写比例 阈值的的小写比例
表, 第四象限为读比例小于设定读比例阈值的小读比例表。
6.根据权利要求1 ‑5中任一项所述的基于审计数据的数据库表分类方法, 其特征在于,
TF‑IDF的相似度模型 具体如下:
对于数据库中任意一张表t的操作(UPDATEDOWN,UPDATEUP, INSERT,DELETE)对应的数据
大小分别用tUPDATEDOWN, tUPDATEUP, tINSERT及tDELETE表示, 将任一个词在文档中出现总次数引申为权 利 要 求 书 1/3 页
2
CN 115510228 A
2表上对应操作在该数据表上的操作次数用词频表 示, 词频引申为在数据库表上该操作次数
与操作总次数的占比用TF(t)表示, 使用 ‘|’表示操作间或的关系, 公式如下:
对于一张表的IDF来说, 总样本数引申为数据库的总表数, 包括该词的样本数引申为涉
及该操作的总表数; 审计的表的操作均由INSERT、 UPDATE、 DELETE及SELECT组成, 对应操作
为数据库数据来源的基础; 当数据库不为空, 所有 数据库表均存在 对应词; 总样本数为数据
库总大小(DB_SIZE), 包括该词的样 本数为各个表由该操作影响的数据量大小之和, 公 式如
下:
select的特 征设为:
根据TF‑IDF特征值和SELE CT特征, 获得对应数据库的一个特 征向量, 公式如下:
当选择数据库中的任意一个表, 根据余弦相似度公式计算出其他表与当前表的亲疏关
系, 从而将相似表现的表划分为同一类别; 余弦相似度公式如下:
7.一种基于审计数据的数据库表分类系统, 其特 征在于, 该系统包括,
获取模块一, 用于获取统计数据, 统计数据包括统计表的读取数据、 统计写入数据以及
统计整个数据库大小;
获取模块 二, 用于通过统计数据计算数据库表的读写特性, 进 而完成分类图表;
划分模块, 用于根据用户的类别需求及分类图表, 将数据库表划分为用户需求的类别;
优化模块, 用于根据数据库表 的类别, 优化数据库表 的存储结构, 提升读写性能, 进而
适应对应的审计策略。
8.根据权利要求7所述的基于审计数据的数据库表分类系统, 其特征在于, 所述获取模
块二包括读写比子模块、 相似度子模块、 读写比图表生成器、 相似度图表生 成器和图像渲 染
模块, 读写比子模块结合对应数据, 以表大小为y, 读写比为x生成每个表的坐标; 根据数据
库大小的一半和50%的读写比作为四个象限的分类, 以
作为中心点; 根
据表坐标的坐标计算出一个平均中心点, 平均中心 点相对于中心点的位置 即为数据库的一
个特征, 偏向于存储 大表或小表, 偏向于读或写; 用户参考读写比特征决定数据库 表的存储
策略; 当前仅以中心点作为分类依据, 输出读取大表、 读取小表及写入大表, 写入小表 四类
将数据库表分为四类; 将输出的坐标和类别通过图像渲染模块将分类结果呈现给用户;
数据库表间的相似度子模块由两 部分组成, 具体如下:
(1)、 关系亲 疏计算, 用于表现表间关系远近, 呈现给用户的是长短不 一的线段;权 利 要 求 书 2/3 页
3
CN 115510228 A
3
专利 基于审计数据的数据库表分类方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:14:15上传分享