专利 一种文本内容的敏感分析方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211447627.2 (22)申请日 2022.11.18 (71)申请人北京国科众安科技有限公司地址 100089 北京市海淀区复兴路21号1幢 13层1302 (72)发明人胡红亮　杨万波　 (74)专利代理机构北京睿博行远知识产权代理有限公司 1 1297 专利代理师陈明 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称一种文本内容的敏感分析方法及系统 (57)摘要本发明涉及文本信息处理技术领域，特别涉及一种文本内容的敏感分析方法及系统，包括，挖掘潜在敏感关键词，对敏感词库进行扩充。构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词。将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。基于所有敏感信息类型，对所述待检测文本进行威胁评级。可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。权利要求书3页说明书9页附图2页 CN 115510500 A 2022.12.23 CN 115510500 A 1.一种文本内容的敏感分析方法，其特征在于，包括：步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；步骤2：构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；步骤3：将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；步骤4：基于所有敏感信息类型，对所述待检测文本进行威胁评级。 2.根据权利要求1所述的文本内容的敏感分析方法，其特征在于，挖掘潜在敏感关键词，对敏感词库进行扩充，包括：获取定时更新的敏感数据；对定时更新的敏感数据进行文本分词，并训练词向量；将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。 3.根据权利要求2所述的文本内容的敏感分析方法，其特征在于，基于所有敏感信息类型，对所述待检测文本进行威胁评级，包括：确定所述待检测文本中每个第一敏感词的维度特征；基于敏感信息分级模型，并结合对应第一敏感词的维度特征，确定对应第一敏感词所匹配的每个维度特征的特征权重；基于所有第一敏感词的所有特征权重，计算所述待检测文本的文本敏感指数；按照所述文本敏感指数对所述待检测文本进行评分；根据评分结果对威胁结果进行评级，并输出与所述待检测文本匹配的威胁标签；其中，所述威胁标签包括：高危标签、中危标签以及低危标签；所述维度特征包括：类型维度、同类型数据维度以及敏感严重维度。 4.根据权利要求1所述的文本内容的敏感分析方法，其特征在于，构建关键词树，包括：确定扩充后的敏感词库中的历史关键词以及新增关键词；获取每个历史关键词每次历史搜索的被定义结果，构建被定义集合；分析所述被定义集合，确定对应历史关键词的敏感定义等级，按照等级 ‑优先级转换机制，获取得到对应历史关键词的第一优先级；获取每个新增关键词的设定标签，按照标签 ‑优先级转换机制，确定每个新增关键词的第二优先级；根据所述历史关键词以及新增关键词的敏感前缀，进行词层级划分，构建得到初始树；按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级，输入到所述初始树的对应位置上，构建得到关键词树；其中，所述新增关键词为潜在敏感关键词。 5.根据权利要求4所述的文本内容的敏感分析方法，其特征在于，分析所述被定义集合，确定对应历史关键词的敏感定义等级，包括：分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数，同时，获取每个同类定义中每个被定义结果的定义时间集合；权　利　要　求　书 1/3 页 2 CN 115510500 A 2获取中每个相邻时间段的时间间隔以及到时间段内对应的总定义次数，来确定对应同类定义的被定义随机性；按照被定义次数以及被定义随机性，获取得到对应历史关键词的定义等级；其中，表示对应同类定义中第次被定义结果的定义时间点；表示对应同类定义中第次被定义结果的定义时间点；表示对应同类定义结果中第次被定义结果的定义时间点；表示对应同类定义结果中第次被定义结果的定义时间点。 6.根据权利要求1所述的文本内容的敏感分析方法，其特征在于，将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型，包括：将每个第一敏感词分别输入到敏感分类模型中，获取得到对应第一敏感词的敏感类别，并分别确定对应第一敏感词基于每个敏感类别的初始概率值；将所有的初始概率值进行排序，并判断最高概率值是否为一个；若为一个，将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型；若不为一个，获取最高概率值对应的所有待分析类别以及剩余分析类别；分别确定每个待分析类别与剩余分析类别的第一匹配程度，同时，分别确定每个待分析类别与余下待分析类别的第二匹配程度；判断所述第一匹配程度以及第二匹配程度是否满足筛选条件，若满足，筛选得到最佳敏感类别作为对应第一敏感词的敏感信息类型；若不满足，对所述敏感分类模型的当下识别精度进行精度细化，并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析，筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。 7.一种文本内容的敏感分析系统，其特征在于，包括：扩充模块，用于挖掘潜在敏感关键词，对敏感词库进行扩充；词识别模块，用于构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；类别确定模块，用于将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；评级模块，用于基于所有敏感信息类型，对所述待检测文本进行威胁评级。 8.根据权利要求7 所述的文本内容的敏感分析系统，其特征在于，所述扩充模块，包括：数据获取单元，用于获取定时更新的敏感数据；训练单元，用于对定时更新的敏感数据进行文本分词，并训练词向量；库扩充单元，用于将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。 9.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理权　利　要　求　书 2/3 页 3 CN 115510500 A 3

专利 一种文本内容的敏感分析方法及系统

专利一种文本内容的敏感分析方法及系统