(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211088408.X
(22)申请日 2022.09.07
(71)申请人 四川大学
地址 610065 四川省成 都市武侯区一环路
南一段24号
(72)发明人 黄诚 曾雨潼 杜予同 余泓豪
陈勇 徐奕鑫
(51)Int.Cl.
G06Q 50/00(2012.01)
G06F 16/35(2019.01)
G06F 16/951(2019.01)
G06F 16/9536(2019.01)
G06F 40/58(2020.01)
(54)发明名称
一种面向社交网络的安全社区发现方法
(57)摘要
一种面向社交网络的安全社区发现方法, 包
括: 手动筛选社交网络上所关注网络安全领域的
特定安全人员账号作为种子账号; 采集种子账号
的关联账号构成自我网络中的账号数据作为第
一层数据集; 对 数据集中的文本数据进行预处理
以及账号特征的提取, 得到第二层数据集; 判别
账号是否属于安全账号, 剔除非安全 人员账号更
新得到第三层数据集; 以账号间的双向关系构建
拓扑图并剪枝, 得到包含网络结构的第四层数据
集; 进行局部网络的扩展, 得到包含完整局部网
络的第五层数据集; 第五层数据集作为输入, 利
用社区发现模 型进行安全社区的划分。 本发明属
于网络安全 领域, 能够从海量社交网络数据中准
确且快速挖掘安全人员组成的社区。
权利要求书3页 说明书9页 附图2页
CN 115423639 A
2022.12.02
CN 115423639 A
1.一种针对社交网络中安全社区的发现方法, 该方法以发现社交网络中安全人员组成
的社区为核心, 识别社交网络上网络安全领域账号并挖掘其间的社 交关系, 其特征在于, 所
述方法包括:
步骤1: 手动筛 选社交网络上 所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2: 利用单个种子账号的关联信 息缩小采样范围, 依据种子账号的关联账号构 成自
我网络, 同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3: 对第一层数据集中所有账号的文本数据进行预处理后, 提取所有账号特征, 得
到包含所有账号的特 征矩阵作为第二层数据集;
步骤4: 使用基于改进后的GBDT模型对第二层数据集中的账号进行判别, 剔除非安全人
员账号, 更新得到仅包 含安全人员账号数据的第三层数据集;
步骤5: 依据步骤4得到的第三层数据集中的安全人员账号作为节点, 节点间的双向关
注关系构建初始社交拓扑图, 从不同的角度对网络结构间的关联进行建模, 以此作为策略
依据对边关系进行剪枝, 得到包 含初始社交拓扑图的第四层数据集;
步骤6: 选取步骤5生成的第 四层数据集进行局部网络的扩展, 以度中心性作为基准选
取候选迭代 节点, 得到包 含完整局部网络结构的第五层数据集;
步骤7: 根据第五层数据集中的节点特征矩阵和邻接矩阵, 基于图神经网络构建下游的
重叠社区发现任务, 完成对安全社区的划分。
2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法, 其特征在于, 所述
步骤1中:
步骤1a: 手动筛 选社交网络上 所关注网络安全领域的特定安全人员账号, 方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题, 收集满足要求的
社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号, 并收集账号;
(3) 基于关键词查找该 领域的影响力较高的文本内容, 并收集所属账号。
3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法, 其特征在于, 所述
步骤2中:
步骤2a: 利用单个种子账号的关联信息缩小采样范围, 通过网络爬虫和开发者接口采
集该种子账号的个人资料和文本数据;
步骤2b: 统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的
关联账号集合, 构成自我网络, 并对其中的账号进行去重;
步骤2c: 再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,
完成第一层数据集的获取。
4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法, 其特征在于, 所述
步骤3中:
步骤3a: 将所有的文本数据翻译为英文, 便 于后续的统一预处 理;
步骤3b: 从收集到的账号文本数据中去除非ASCI I字符、 标点符号和停用词;
步骤3c: 将文本中所有单词中的大写字母全部由小写字母替换, 并使用NLTK进行词形
还原;
步骤3d: 使用特 征工程方法对第一层数据集中的账号从如下四个角度生成特 征:权 利 要 求 书 1/3 页
2
CN 115423639 A
2资料特征: 账号名特 征、 账号社交特 征、 账号设置特 征;
行为特征: 账号发文特 征、 发文来源特 征;
文本特征: 文本可读性、 关键词特 征;
时序特征: 发文时序特 征;
步骤3e: 得到包 含账号预处 理数据及节点特 征矩阵的第二层数据集。
5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法, 其特征在于, 所述
步骤4中:
步骤4a: 根据步骤3中第二层数据集的账号特征矩阵作为训练集, 依据账号是否从事网
络安全领域, 人工将训练用账号分为 安全账号与无关两类;
步骤4b: 使用改进后的GBDT模型对训练集进行训练 , 其中 训练数据集为
,
,
为输入空间,
,
为输出空间,
训练的步骤如下:
步骤4c: 初始化弱学习器,
, 损失函数为平方损失;
步骤4d: 建立
棵分类回归树
, 通过公式
, 计
算第
棵树对应的响应值;
步骤4e: 利用CART回归树拟合数据
, 得到第
棵回归树, 其对 应的叶子节点区域
为
, 其中
,
为第
棵回归树叶子节点的个数;
步骤4f: 通过公式
计算出
个叶子节点区
域的最佳拟合 值;
步骤4g: 为避免GBDT陷入过拟合, 依据公式
更
新强学习器, 并增 加了GBDT的迭代次数,
为改进后的减小残差收敛次数的参数;
步骤4h: 使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号, 移
除第二层数据集中分类模型 预测为非安全人员帐号, 更新后得到第三层数据集。
6.根据权利要求1所述的一种针对社交网络中安全社区的发现方法, 其特征在于, 所述
步骤5中:
步骤5a: 使用步骤4中得到的第三层数据集初始化网络结构, 安全人员账号作为网络节
点, 并采用账号间的双向关注关系作为网络结构中的边关系;
(1) 利用账号间的交互关系、 内容相似程度、 好友粉丝相关性对网络中的关联进行建
模:
(2) 统计账号间产生过的互动次数用于表征 账号间的交 互关系;
(3) 计算账号间的内容相似程度, 通过互信息对文本数据中的关键词进行筛选, 并选
取前
个关键词用于表征账号内容, 最后采用余弦相似度算法计算两个账号间的相似程
度;
(4) 计算账号间的社交结构的相似性, 即两账号 好友与粉丝列表的交集与并集之比;
步骤5b: 构建剪枝策略对边关系进行裁 剪, 剪枝策略如下:
账号间存在交 互关系, 表明账号间存在的社交关联;
账号间社交结构与内容存在相似性, 表明账号间存在同质性;权 利 要 求 书 2/3 页
3
CN 115423639 A
3
专利 一种面向社交网络的安全社区发现方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:15上传分享