(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211128279.2
(22)申请日 2022.09.16
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市海港区河北
大街438号
(72)发明人 宫继兵 彭吉全 房小涵 赵金烨
林宇庭
(74)专利代理 机构 石家庄众志华清知识产权事
务所(特殊普通 合伙) 13123
专利代理师 赵洪娥
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06K 9/62(2022.01)
(54)发明名称
一种基于解耦表征和异构图软硬注意力网
络的消歧方法
(57)摘要
本发明涉及一种基于解耦表征和异构图软
硬注意力网络的消歧方法, 属于学术数据库构建
的实体消歧技术领域, 包括以下步骤: S1、 数据清
洗及预处理; S2、 论文实体表征学习, 使用语言预
训练模型OAG_BERT获得论文的初步表征; S3、 解
耦表征, 使用变 分自编码模型加正则化项的方式
对论文表征进行特征解耦; S4、 论文初始化聚类;
S5、 异构图实体对齐, 构建论文和作者信息异构
图, 采用软、 硬注意力网络对异构图进行实体对
齐; S6、 获得论文消歧结果。 本发明解决了传统消
岐方法在实际应用过程中产生的错误分配问题,
提高了实体表征能力, 提高了消岐算法的性能。
权利要求书3页 说明书7页 附图2页
CN 115455971 A
2022.12.09
CN 115455971 A
1.一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其特征在于, 包括以下步
骤:
S1、 数据清洗及预处理, 将论文数据存入非结构化数据库MongoDB, 删除数据中的重复
值, 按照一定规则对缺失值进行补全, 同时对 命名不一致的属性进行一 致化处理;
S2、 论文实体表征 学习, 使用语言预训练模型OAG_BERT获得论文的初步表征;
S3、 解耦表征, 使用变分自编码模型加正则化项的方式对论文表征进行 特征解耦;
S4、 以准确率 为原则, 对论文 进行初始化聚类;
S5、 异构图实体对齐, 构建论文和作者信息异构图, 采用软、 硬注意力网络对异构图进
行实体对齐;
S6、 获得论文消歧结果。
2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其
特征在于, 所述S2包括:
S21、 使用语言预训练模型OAG_BERT获取论文表征:
其中, Pia表示为论文作者名称为a的论文i,
为该论文对应的向量表示;
S22、 构造正例对
构造反例对
并对正例
对和负例对进行组合;
S23、 引入训练的目标函数h=f(ber t(x)),训练的目标损失li为:
其中, N是最小batc h size, τ 是超参数, sim(h1, h2)是余弦相似度;
S24、 经过训练后得到论文作者名称表征向量
3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其
特征在于, 所述S3包括:
S31、 将论文作 者名称表征向量输入变分自编码模型, 变分自编码器VAE中, 通过训练获
得表征向量z, l oss函数为:
F( θ, φ, β; emb, z)≥L( θ, φ; emb, z, β )
=Eqφ(z|emb)[l ogpθ(emb|z)] ‑β DKL(qφ(z|emb)| |p(z))
其中, θ, φ为模型参数, β 是控制解耦程度的超参数, z为隐向量;
S32、 调整超参数β, 获得最佳的实体解耦表征z, 所述 解耦量化指标具体为:
其中, L为采样个数,
为第1个采样样本与其固定单个维度的变换后样本之间的绝
对值。权 利 要 求 书 1/3 页
2
CN 115455971 A
24.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其
特征在于, 所述S4包括:
S41、 将聚类过程作为消歧的初始过程, 以准确率为原则, 按照距离指标将论文划分成
更多的簇;
S42、 通过L ightGBN模型进行向量聚类, 构建作者实体簇候选集;
S43、 提出指标Recallover‑merge去描述聚类结果的过合并现象, 所述指标Recallover‑merge
为:
其中, TP表示两个同一作者论文在同一个簇中的情况数量; FN表示两个同一作者论文
分别在两个簇中的情况数量; M为理想聚类结果数, N为实际聚簇结果数; Recallover‑merge值
越高聚类所 带来的过拆分程度就越低。
5.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其
特征在于, 所述S5包括:
S51、 为名称相同的作者实体生成候选对;
S52、 对于每一个作者实体, 构建异构图, 如果候选对之间的机构、 合著者名称相同或者
论文相似, 则相互连接, 得到异构图G(V,E);
S53、 利用异构图软硬注意力网络确定作者实体匹配;
S54、 最终 实体及损失函数为:
efinal=(LeakRelu W(eHGAT||ehard))
其中, eHGAT为异构图自注意力网络聚合的实体e 的表示, ehard为异构图硬注意力机制聚
合的实体e的表示;
其中, d为欧式距离, η为margi n值以保证l oss值大于0。
6.根据权利要求5所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其
特征在于, 所述S5 3包括:
S531、 通过S3得到每一个论文实体的语义嵌入, 构 建异构图进行训练, 得到每个实体的
结构嵌入;
S532、 将语义嵌入和结构嵌入两种嵌入合并在一起作为输入特征f, 通过self_
attention求出不同作者实体e之间的重要性, 此 过程描述 为:
tjj=self_at tention(Wfi, Wfj)
其中, W为共享的权重矩阵, 对于每一个
为ei的所有邻居节点; 其中归
一化注意力系数如下:
权 利 要 求 书 2/3 页
3
CN 115455971 A
3
专利 一种基于解耦表征和异构图软硬注意力网络的消歧方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:11:34上传分享