团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211128279.2 (22)申请日 2022.09.16 (71)申请人 燕山大学 地址 066004 河北省秦皇岛市海港区河北 大街438号 (72)发明人 宫继兵 彭吉全 房小涵 赵金烨  林宇庭  (74)专利代理 机构 石家庄众志华清知识产权事 务所(特殊普通 合伙) 13123 专利代理师 赵洪娥 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) (54)发明名称 一种基于解耦表征和异构图软硬注意力网 络的消歧方法 (57)摘要 本发明涉及一种基于解耦表征和异构图软 硬注意力网络的消歧方法, 属于学术数据库构建 的实体消歧技术领域, 包括以下步骤: S1、 数据清 洗及预处理; S2、 论文实体表征学习, 使用语言预 训练模型OAG_BERT获得论文的初步表征; S3、 解 耦表征, 使用变 分自编码模型加正则化项的方式 对论文表征进行特征解耦; S4、 论文初始化聚类; S5、 异构图实体对齐, 构建论文和作者信息异构 图, 采用软、 硬注意力网络对异构图进行实体对 齐; S6、 获得论文消歧结果。 本发明解决了传统消 岐方法在实际应用过程中产生的错误分配问题, 提高了实体表征能力, 提高了消岐算法的性能。 权利要求书3页 说明书7页 附图2页 CN 115455971 A 2022.12.09 CN 115455971 A 1.一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其特征在于, 包括以下步 骤: S1、 数据清洗及预处理, 将论文数据存入非结构化数据库MongoDB, 删除数据中的重复 值, 按照一定规则对缺失值进行补全, 同时对 命名不一致的属性进行一 致化处理; S2、 论文实体表征 学习, 使用语言预训练模型OAG_BERT获得论文的初步表征; S3、 解耦表征, 使用变分自编码模型加正则化项的方式对论文表征进行 特征解耦; S4、 以准确率 为原则, 对论文 进行初始化聚类; S5、 异构图实体对齐, 构建论文和作者信息异构图, 采用软、 硬注意力网络对异构图进 行实体对齐; S6、 获得论文消歧结果。 2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其 特征在于, 所述S2包括: S21、 使用语言预训练模型OAG_BERT获取论文表征: 其中, Pia表示为论文作者名称为a的论文i, 为该论文对应的向量表示; S22、 构造正例对 构造反例对 并对正例 对和负例对进行组合; S23、 引入训练的目标函数h=f(ber t(x)),训练的目标损失li为: 其中, N是最小batc h size, τ 是超参数, sim(h1, h2)是余弦相似度; S24、 经过训练后得到论文作者名称表征向量 3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其 特征在于, 所述S3包括: S31、 将论文作 者名称表征向量输入变分自编码模型, 变分自编码器VAE中, 通过训练获 得表征向量z, l oss函数为: F( θ, φ, β; emb, z)≥L( θ, φ; emb, z, β ) =Eqφ(z|emb)[l ogpθ(emb|z)] ‑β DKL(qφ(z|emb)| |p(z)) 其中, θ, φ为模型参数, β 是控制解耦程度的超参数, z为隐向量; S32、 调整超参数β, 获得最佳的实体解耦表征z, 所述 解耦量化指标具体为: 其中, L为采样个数, 为第1个采样样本与其固定单个维度的变换后样本之间的绝 对值。权 利 要 求 书 1/3 页 2 CN 115455971 A 24.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其 特征在于, 所述S4包括: S41、 将聚类过程作为消歧的初始过程, 以准确率为原则, 按照距离指标将论文划分成 更多的簇; S42、 通过L ightGBN模型进行向量聚类, 构建作者实体簇候选集; S43、 提出指标Recallover‑merge去描述聚类结果的过合并现象, 所述指标Recallover‑merge 为: 其中, TP表示两个同一作者论文在同一个簇中的情况数量; FN表示两个同一作者论文 分别在两个簇中的情况数量; M为理想聚类结果数, N为实际聚簇结果数; Recallover‑merge值 越高聚类所 带来的过拆分程度就越低。 5.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其 特征在于, 所述S5包括: S51、 为名称相同的作者实体生成候选对; S52、 对于每一个作者实体, 构建异构图, 如果候选对之间的机构、 合著者名称相同或者 论文相似, 则相互连接, 得到异构图G(V,E); S53、 利用异构图软硬注意力网络确定作者实体匹配; S54、 最终 实体及损失函数为: efinal=(LeakRelu  W(eHGAT||ehard)) 其中, eHGAT为异构图自注意力网络聚合的实体e 的表示, ehard为异构图硬注意力机制聚 合的实体e的表示; 其中, d为欧式距离, η为margi n值以保证l oss值大于0。 6.根据权利要求5所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法, 其 特征在于, 所述S5 3包括: S531、 通过S3得到每一个论文实体的语义嵌入, 构 建异构图进行训练, 得到每个实体的 结构嵌入; S532、 将语义嵌入和结构嵌入两种嵌入合并在一起作为输入特征f, 通过self_ attention求出不同作者实体e之间的重要性, 此 过程描述 为: tjj=self_at tention(Wfi, Wfj) 其中, W为共享的权重矩阵, 对于每一个 为ei的所有邻居节点; 其中归 一化注意力系数如下: 权 利 要 求 书 2/3 页 3 CN 115455971 A 3

.PDF文档 专利 一种基于解耦表征和异构图软硬注意力网络的消歧方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于解耦表征和异构图软硬注意力网络的消歧方法 第 1 页 专利 一种基于解耦表征和异构图软硬注意力网络的消歧方法 第 2 页 专利 一种基于解耦表征和异构图软硬注意力网络的消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:11:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。