(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211072171.6
(22)申请日 2022.09.02
(65)同一申请的已公布的文献号
申请公布号 CN 115130466 A
(43)申请公布日 2022.09.30
(73)专利权人 杭州火石数智科技有限公司
地址 310000 浙江省杭州市滨江区西兴街
道物联网街3 69号A幢9层90 5室
(72)发明人 柴龙涛 金霞
(74)专利代理 机构 青岛锦佳专利代理事务所
(普通合伙) 37283
专利代理师 朱玉建
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/211(2020.01)
G06F 16/38(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)(56)对比文件
CN 113901807 A,202 2.01.07
CN 110991185 A,2020.04.10
CN 114139545 A,202 2.03.04
CN 111368528 A,2020.07.0 3
CN 113887211 A,2022.01.04
US 2008052262 A1,20 08.02.28
US 2022215173 A1,202 2.07.07
US 2021349 975 A1,2021.1 1.11
曹春萍等.融合BSRU和AT T-CNN的化学物质
与疾病的关系抽取方法. 《小型微型计算机系
统》 .2020,(第04期),
Yong Li 等.Medical Text Entity
Recognition Based o n CRF and Jo int
Entity. 《2021 IE EE Asia-Pacific Co nference
on Image Proces sing, Electro nics and
Computers (IPE C)》 .2021, (续)
审查员 姚培
(54)发明名称
分类和实体识别联合抽取方法、 计算机设备
及存储介质
(57)摘要
本发明属于循证医学中PICOS抽取技术领
域, 公开了一种针对PICOS抽取的分类和实体识
别联合抽取方法、 计算机设备及存储介质。 本发
明方法充分考虑到医学领域文章在撰写时的书
写逻辑问题, 在该场景和任务中加入了句子的位
置信息以及句子的类别信息, 并且针对PICOS抽
取场景搭建了同时包含分类模块 以及实体识别
模块的联合抽取模型, 因而能够在进行PICOS抽
取时充分考虑到句子位置信息的重要性, 同时在
实体信息识别时能够充分考虑到句子的位置信
息以及句子的类别信息的重要性, 使得本发明方
法在面对医学领域文章的PICOS抽取分类时和实
体信息识别时准确率明显提高, 进而证明了本发
明方法的有效性。
[转续页]
权利要求书2页 说明书7页 附图3页
CN 115130466 B
2022.12.02
CN 115130466 B
(56)对比文件
于中华等.基于前后文词形 特征的生物医学
文献句子边界识别. 《小型微型计算机系统》
.2006,(第01期),
刘凯等.基 于卷积神经网络的中文医疗弱监督关系抽取. 《计算机科 学》 .2017,(第10期),
宁尚明等.基 于多通道自注意力机制的电子
病历实体关系抽取. 《计算机学报》 .2020,(第0 5
期),2/2 页
2[接上页]
CN 115130466 B1.一种针对PICOS抽取的分类和实体识别联合抽取 方法, 其特 征在于, 包括如下步骤:
步骤1.数据获取以及预处 理操作;
首先获取多篇医学领域文章的摘要信 息, 然后将所有医学领域文章的摘要信 息进行分
句操作, 并记录各 条句子在对应医学 领域文章的摘要信息中的位置;
步骤2.句子标注以及构建数据集;
对每条句子进行标注, 包括分类任务标注以及实体识别任务标注; 分类任务标注将句
子划分为P、 I、 C、 O、 S、 其 他, 共六个 类别, 实体识别任务标注对每条句子标注实体信息;
将每条句子的句子文本以及该句子的句子位置、 句子类别以及句子实体信 息共同组成
一个数据样本; 将与所有句子对应的数据样本共同组成数据集;
将数据集划分为训练集以及测试集, 其中训练集用于模型训练, 测试集用于模型测试;
步骤3.构建 分类和实体识别联合抽取模型;
分类和实体识别联合抽取模型包括一个向量化模块、 两个拼接模块、 一个分类模块以
及一个实体识别模块, 定义两个拼接模块分别为第一 拼接模块以及第二 拼接模块;
其中, 向量 化模块的输入为句子文本、 句子位置以及句子类别;
分类和实体识别联合抽取模型的处 理过程如下:
首先将句子文本以及句子位置分别作为向量化模块的输入, 并依次输入到向量化模块
中, 分别得到句子文本向量以及句子位置向量;
句子文本向量和句子位置向量在第一 拼接模块中进行拼接得到第一 拼接句子向量;
第一拼接向量输入到分类模块中进行分类操作, 得到句子类别;
将句子类别作为向量 化模块的输入, 并输入到向量模块中, 得到句子类别向量;
句子类别向量与第一拼接句子向量在第二拼接模块中进行拼接得到第二拼接句子向
量;
将第二拼接句子向量输入到实体识别模块中, 得到句子的实体信息;
步骤4.训练及测试分类和实体识别联合抽取模型;
利用步骤2训练集中的样本数据对步骤3 中的分类和实体识别联合抽取模型进行训练,
并保存模型参数, 得到训练好的分类和实体识别联合抽取模型;
利用测试集中的样本数据对训练好的分类和实体识别联合抽取模型进行测试;
步骤5.对医学 领域文章摘要信息进行PICOS抽取分类和实体信息识别;
首先按照步骤1对文章摘要进行预处理, 然后预处理后的句子文本和句子位置输入到
训练好的分类和实体识别联合抽取模型中, 得到PICOS抽取分类和实体识别结果。
2.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法, 其特征在
于,
所述向量 化模块采用Ber t预训练模型;
句子文本向量的获取过程如下: 将句子文本依次通过Bert预训练模型进行文本嵌入,
将Bert最后一层hid denlayer状态, 作为 其Embedding输出, 得到句子文本向量;
句子位置向量的获取过程如下: 将句子位置依次通过Bert预训练模型进行文本嵌入,
将Bert最后一层hid denlayer状态, 作为 其Embedding输出, 得到句子位置向量;
句子类别向量的获取过程如下: 将句子类别通过Bert预训练模型进行文本嵌入, 将
Bert最后一层hid denlayer状态, 作为 其Embedding输出, 得到句子类别向量。权 利 要 求 书 1/2 页
2
CN 115130466 B
3
专利 分类和实体识别联合抽取方法、计算机设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:32上传分享