专利 一种面向社交网络的安全社区发现方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211088408.X (22)申请日 2022.09.07 (71)申请人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人黄诚　曾雨潼　杜予同　余泓豪　陈勇　徐奕鑫　 (51)Int.Cl. G06Q 50/00(2012.01) G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 16/9536(2019.01) G06F 40/58(2020.01) (54)发明名称一种面向社交网络的安全社区发现方法 (57)摘要一种面向社交网络的安全社区发现方法，包括：手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号；采集种子账号的关联账号构成自我网络中的账号数据作为第一层数据集；对数据集中的文本数据进行预处理以及账号特征的提取，得到第二层数据集；判别账号是否属于安全账号，剔除非安全人员账号更新得到第三层数据集；以账号间的双向关系构建拓扑图并剪枝，得到包含网络结构的第四层数据集；进行局部网络的扩展，得到包含完整局部网络的第五层数据集；第五层数据集作为输入，利用社区发现模型进行安全社区的划分。本发明属于网络安全领域，能够从海量社交网络数据中准确且快速挖掘安全人员组成的社区。权利要求书3页说明书9页附图2页 CN 115423639 A 2022.12.02 CN 115423639 A 1.一种针对社交网络中安全社区的发现方法，该方法以发现社交网络中安全人员组成的社区为核心，识别社交网络上网络安全领域账号并挖掘其间的社交关系，其特征在于，所述方法包括：步骤1：手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号；步骤2：利用单个种子账号的关联信息缩小采样范围，依据种子账号的关联账号构成自我网络，同时对自我网络中的账号数据进行采集作为第一层数据集；步骤3：对第一层数据集中所有账号的文本数据进行预处理后，提取所有账号特征，得到包含所有账号的特征矩阵作为第二层数据集；步骤4：使用基于改进后的GBDT模型对第二层数据集中的账号进行判别，剔除非安全人员账号，更新得到仅包含安全人员账号数据的第三层数据集；步骤5：依据步骤4得到的第三层数据集中的安全人员账号作为节点，节点间的双向关注关系构建初始社交拓扑图，从不同的角度对网络结构间的关联进行建模，以此作为策略依据对边关系进行剪枝，得到包含初始社交拓扑图的第四层数据集；步骤6：选取步骤5生成的第四层数据集进行局部网络的扩展，以度中心性作为基准选取候选迭代节点，得到包含完整局部网络结构的第五层数据集；步骤7：根据第五层数据集中的节点特征矩阵和邻接矩阵，基于图神经网络构建下游的重叠社区发现任务，完成对安全社区的划分。 2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤1中：步骤1a：手动筛选社交网络上所关注网络安全领域的特定安全人员账号，方法包括： (1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题，收集满足要求的社交网络账号； (2) 基于网络安全领域机构查找相应的社交网络账号，并收集账号； (3) 基于关键词查找该领域的影响力较高的文本内容，并收集所属账号。 3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤2中：步骤2a：利用单个种子账号的关联信息缩小采样范围，通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据；步骤2b：统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合，构成自我网络，并对其中的账号进行去重；步骤2c：再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集，完成第一层数据集的获取。 4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤3中：步骤3a：将所有的文本数据翻译为英文，便于后续的统一预处理；步骤3b：从收集到的账号文本数据中去除非ASCI I字符、标点符号和停用词；步骤3c：将文本中所有单词中的大写字母全部由小写字母替换，并使用NLTK进行词形还原；步骤3d：使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征：权　利　要　求　书 1/3 页 2 CN 115423639 A 2资料特征：账号名特征、账号社交特征、账号设置特征；行为特征：账号发文特征、发文来源特征；文本特征：文本可读性、关键词特征；时序特征：发文时序特征；步骤3e：得到包含账号预处理数据及节点特征矩阵的第二层数据集。 5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤4中：步骤4a：根据步骤3中第二层数据集的账号特征矩阵作为训练集，依据账号是否从事网络安全领域，人工将训练用账号分为安全账号与无关两类；步骤4b：使用改进后的GBDT模型对训练集进行训练，其中训练数据集为，，为输入空间，，为输出空间，训练的步骤如下：步骤4c：初始化弱学习器，，损失函数为平方损失；步骤4d：建立棵分类回归树，通过公式，计算第棵树对应的响应值；步骤4e：利用CART回归树拟合数据，得到第棵回归树，其对应的叶子节点区域为，其中，为第棵回归树叶子节点的个数；步骤4f：通过公式计算出个叶子节点区域的最佳拟合值；步骤4g：为避免GBDT陷入过拟合，依据公式更新强学习器，并增加了GBDT的迭代次数，为改进后的减小残差收敛次数的参数；步骤4h：使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号，移除第二层数据集中分类模型预测为非安全人员帐号，更新后得到第三层数据集。 6.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤5中：步骤5a：使用步骤4中得到的第三层数据集初始化网络结构，安全人员账号作为网络节点，并采用账号间的双向关注关系作为网络结构中的边关系； (1) 利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模： (2) 统计账号间产生过的互动次数用于表征账号间的交互关系； (3) 计算账号间的内容相似程度，通过互信息对文本数据中的关键词进行筛选，并选取前个关键词用于表征账号内容，最后采用余弦相似度算法计算两个账号间的相似程度； (4) 计算账号间的社交结构的相似性，即两账号好友与粉丝列表的交集与并集之比；步骤5b：构建剪枝策略对边关系进行裁剪，剪枝策略如下：账号间存在交互关系，表明账号间存在的社交关联；账号间社交结构与内容存在相似性，表明账号间存在同质性；权　利　要　求　书 2/3 页 3 CN 115423639 A 3

专利 一种面向社交网络的安全社区发现方法

专利一种面向社交网络的安全社区发现方法