专利 基于审计数据的数据库表分类方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211134642.1 (22)申请日 2022.09.19 (71)申请人浪潮软件集团有限公司地址 250100 山东省济南市高新区科航路 2877号 (72)发明人刘思远　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师孙园园 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称基于审计数据的数据库表分类方法及系统 (57)摘要本发明公开了基于审计数据的数据库表分类方法及系统，属于数据库表处理技术领域，本发明要解决的技术问题为如何基于用户对数据库的使用方式及对应的数据进行分类，确保能够更好的组织符合用户使用习惯的数据存储位置，从而提升读写效率及读写，采用的技术方案为：该方法具体如下：获取统计数据：统计数据包括统计表的读取数据、统计写入数据以及统计整个数据库大小；获取分类图表：通过统计数据计算数据库表的读写特性，进而完成分类图表；划分类别：根据用户的类别需求及分类图表，将数据库表划分为用户需求的类别；优化存储：根据数据库表的类别，优化数据库表的存储结构，提升读写性能，进而适应对应的审计策略。权利要求书3页说明书10页附图1页 CN 115510228 A 2022.12.23 CN 115510228 A 1.一种基于审计数据的数据库表分类方法，其特征在于，该方法是基于审计时产生的读写数据，采用TF ‑IDF的相似度模型，将数据库表与用户使用需求进行绑定，并进行分类；并将分类后的数据库表按照图标进行展示和输出供数据库管理人员进行数据库性能提升和审计；具体如下：获取统计数据：统计数据包括统计表的读取数据、统计写入数据以及统计整个数据库大小；获取分类图表：通过统计数据计算数据库表的读写特性，进而完成分类图表；划分类别：根据用户的类别需求及分类图表，将数据库表划分为用户需求的类别；优化存储：根据数据库表的类别，优化数据库表的存储结构，提升读写性能，进而适应对应的审计策略。 2.根据权利要求1所述的基于审计数据的数据库表分类方法，其特征在于，获取统计数据具体如下：注册对于数据库表的表读写统计，得到数据库中每一个表的读写数据；在数据库初始化时，注册整个数据库的数据读写统计，得到数据库的大小；将数据库表基于读写特性及表大小分为四个象限，即基于数据库表的读写性能的象限分类。 3.根据权利要求1所述的基于审计数据的数据库表分类方法，其特征在于，数据库基于读写比和表大小划分数据库的标的特征，具体如下：数据库系统的读取仅为SELECT的操作数据，写入包含INSERT、 DELETE及UPDATE的操作数据；注册时，将SELECT注册为读统计，将INSERT、 DELETE及UPDATE注册为写统计，将表注册为大小统计，获取到分类所依赖的表读写数据。 4.根据权利要求1所述的基于审计数据的数据库表分类方法，其特征在于，计算数据库表的读写特性具体如下：设数据库的任意一表的读比例为x，写比例为y，则： y＝1‑x；对于数据库中的所有表，以x轴为读写比， y轴为表大小，生成一个离散图表用于表示数据库中表的分布。 5.根据权利要求1所述的基于审计数据的数据库表分类方法，其特征在于，划分类别时，根据用户输入需要划分的类别数量，在横轴上等距划分为用户所需类别；当用户输入的类别数量为2时，划分原则具体如下：以表大小的一半为横轴，读写比5 0％为纵轴，将读写比图划分为四个象限；处于第一象限的表为读比例大于设定读比例阈值的大写比例表；第二象限为写比例大于设定写比例阈值的大写比例表；第三象限为写比例小于设定写比例阈值的的小写比例表，第四象限为读比例小于设定读比例阈值的小读比例表。 6.根据权利要求1 ‑5中任一项所述的基于审计数据的数据库表分类方法，其特征在于， TF‑IDF的相似度模型具体如下：对于数据库中任意一张表t的操作(UPDATEDOWN,UPDATEUP， INSERT,DELETE)对应的数据大小分别用tUPDATEDOWN， tUPDATEUP， tINSERT及tDELETE表示，将任一个词在文档中出现总次数引申为权　利　要　求　书 1/3 页 2 CN 115510228 A 2表上对应操作在该数据表上的操作次数用词频表示，词频引申为在数据库表上该操作次数与操作总次数的占比用TF(t)表示，使用 ‘|’表示操作间或的关系，公式如下：对于一张表的IDF来说，总样本数引申为数据库的总表数，包括该词的样本数引申为涉及该操作的总表数；审计的表的操作均由INSERT、 UPDATE、 DELETE及SELECT组成，对应操作为数据库数据来源的基础；当数据库不为空，所有数据库表均存在对应词；总样本数为数据库总大小(DB_SIZE)，包括该词的样本数为各个表由该操作影响的数据量大小之和，公式如下： select的特征设为：根据TF‑IDF特征值和SELE CT特征，获得对应数据库的一个特征向量，公式如下：当选择数据库中的任意一个表，根据余弦相似度公式计算出其他表与当前表的亲疏关系，从而将相似表现的表划分为同一类别；余弦相似度公式如下： 7.一种基于审计数据的数据库表分类系统，其特征在于，该系统包括，获取模块一，用于获取统计数据，统计数据包括统计表的读取数据、统计写入数据以及统计整个数据库大小；获取模块二，用于通过统计数据计算数据库表的读写特性，进而完成分类图表；划分模块，用于根据用户的类别需求及分类图表，将数据库表划分为用户需求的类别；优化模块，用于根据数据库表的类别，优化数据库表的存储结构，提升读写性能，进而适应对应的审计策略。 8.根据权利要求7所述的基于审计数据的数据库表分类系统，其特征在于，所述获取模块二包括读写比子模块、相似度子模块、读写比图表生成器、相似度图表生成器和图像渲染模块，读写比子模块结合对应数据，以表大小为y，读写比为x生成每个表的坐标；根据数据库大小的一半和50％的读写比作为四个象限的分类，以作为中心点；根据表坐标的坐标计算出一个平均中心点，平均中心点相对于中心点的位置即为数据库的一个特征，偏向于存储大表或小表，偏向于读或写；用户参考读写比特征决定数据库表的存储策略；当前仅以中心点作为分类依据，输出读取大表、读取小表及写入大表，写入小表四类将数据库表分为四类；将输出的坐标和类别通过图像渲染模块将分类结果呈现给用户；数据库表间的相似度子模块由两部分组成，具体如下： (1)、关系亲疏计算，用于表现表间关系远近，呈现给用户的是长短不一的线段；权　利　要　求　书 2/3 页 3 CN 115510228 A 3

专利 基于审计数据的数据库表分类方法及系统

专利基于审计数据的数据库表分类方法及系统