(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211116156.7
(22)申请日 2022.09.14
(71)申请人 太保科技有限公司
地址 200010 上海市黄浦区中山 南路1号1 1
层(名义楼层)1 1V6室
(72)发明人 王思博
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 张志梅
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种文本提取的方法、 装置、 设备及存储介
质
(57)摘要
本申请提供了一种文本提取的方法、 装置、
设备及存储介质, 应用于信息抽取技术领域。 该
方法包括: 获取待提取文本和与待提取文本对应
的提取提示文本, 提取提示文本为指示提取样待
提取文本中目标影 响因子对应的实体的文本; 将
待提取文本和提取提示文本进行拼接, 得到第一
输入文本; 将第一输入文本输入文本提取模型
中, 得到文本提取模型输出的第一提取文本, 文
本提取模型是根据样本文本和训练提示文本训
练得到的, 训练提示文本与样本文本对应, 训练
提示文本为指示提取所述样本文本中第二影响
因子对应的实体的文本。 通过将待提取文本与提
取提示文本进行拼接, 利用提取提示本文作为提
示, 能够有效地 提取出目标文本 。
权利要求书4页 说明书12页 附图4页
CN 115438163 A
2022.12.06
CN 115438163 A
1.一种文本提取的方法, 其特 征在于, 所述方法包括:
获取待提取文本和与 所述待提取文本对应的提取提示文本, 所述提取提示文本为指示
提取所述样待提取文本中目标影响因子对应的实体的文本;
将所述待提取文本和所述 提取提示文本进行拼接, 得到第一输入文本;
将所述第一输入文本输入文本提取模型中, 得到所述文本提取模型输出的第 一提取文
本, 所述文本提取模型是根据样本文本和训练提示文本训练得到的, 所述训练提示文本与
所述样本文本对应, 所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实
体的文本 。
2.根据权利要求1所述的方法, 其特征在于, 所述文本提取模型是采用以下方法训练得
到的:
获取样本文本、 所述训练提示文本和所述样本文本的标签, 所述样本文本的标签为所
述第一影响因子对应的实体的文本, 所述训练提示文本为指示提取所述样本文本中第二影
响因子对应的实体的文本;
将所述样本文本和所述训练提 示文本进行拼接, 得到第输入二文本;
将所述第二输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第 二提
取文本;
根据所述第二 提取文本与所述标签 计算第一损失值;
根据所述第一损 失值对所述待训练提取模型进行调整, 返回执行所述获取样本文本、
所述训练提示文本和所述样本文本的标签以及后续步骤, 直到达到预设条件生成文本提取
模型。
3.根据权利要求1所述的方法, 其特征在于, 所述文本提取模型是采用以下方法训练得
到的:
获取样本文本、 所述训练提示文本、 训练误导文本和所述样本文本的标签, 所述训练提
示文本为指示提取所述样本文本中第二影响因子对应的实体的文本, 所述训练误导文本为
指示提取所述样本文本中第三影响因子对应的实体的文本, 所述样本文本的标签包括第一
标签和第二标签, 所述第一标签为所述第二影响因子对应的实体的文本, 所述第二标签为
所述第三影响因子对应的实体文本;
将所述样本文本和所述训练提 示文本进行拼接, 得到第三输入文本;
将所述第三输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第 三提
取文本;
根据所述第三 提取文本与所述第一标签 计算第二损失值;
将所述样本文本与所述训练误 导文本进行拼接, 得到第四输入文本;
将所述第四输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第四提
取文本;
根据所述第四提取文本与所述第二标签 计算第三损失值;
将所述第二损失值和第三损失值按照权 重比例进行计算, 得到第四损失值;
根据所述第四损 失值对待训练提取模型进行调整, 返回执行所述获取样本文本、 所述
训练提示文本、 训练误导文本和所述样本文本的标签以及后续步骤, 直到达到预设条件生
成文本提取模型。权 利 要 求 书 1/4 页
2
CN 115438163 A
24.根据权利要求1所述的方法, 其特征在于, 所述文本提取模型是采用以下方法训练得
到的:
获取样本文本、 所述训练提示文本、 获取影响因子提示文本和所述样本文本的标签, 所
述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本, 所述影响因
子提示文本为指示提取所述样本文本中第四影响因子的文本, 所述样本文本的标签包括第
三标签和第四标签, 所述第三标签为所述第二影响因子对应的实体的文本, 所述第四标签
为所述第四影响因子对应的实体的文本;
将所述样本文本和所述训练提 示文本进行拼接, 得到第五输入文本;
将所述第五输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第五提
取文本;
根据所述第五提取文本与所述第三标签 计算第五损失值;
将所述样本文本与所述影响因子提 示文本进行拼接, 得到第六输入文本;
将所述第六输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第六提
取文本;
根据所述第六提取文本与所述第四标签 计算第六损失值;
将所述第五损失值和第六损失值按照权 重比例进行计算, 得到第七损失值;
根据所述第七损 失值对待训练提取模型进行调整, 返回执行所述获取样本文本、 所述
训练提示文本、 获取影响因子提示文本和所述样本文本的标签, 以及后续步骤, 直到达到预
设条件生成文本提取模型。
5.一种文本提取的装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待提取文本和与所述待提取文本对应的提取提示文本, 所述提取
提示文本为指示 提取所述样待提取文本中目标影响因子对应的实体的文本;
拼接模块, 用于将所述待提取文本和所述 提取提示文本进行拼接, 得到第一输入文本;
提取模块, 用于将所述第一输入文本输入文本提取模型中, 得到所述文本提取模型输
出的第一提取文本, 所述文本提取模型是根据样本文本和训练提示文本训练得到的, 所述
训练提示文本与所述样 本文本对应, 所述训练提示文本为指示提取所述样本文本中第二影
响因子对应的实体的文本 。
6.根据权利要求5所述的装置, 其特征在于, 所述文本提取模型是采用以下方法训练得
到的:
获取样本文本、 所述训练提示文本和所述样本文本的标签, 所述样本文本的标签为所
述第一影响因子对应的实体的文本, 所述训练提示文本为指示提取所述样本文本中第二影
响因子对应的实体的文本;
将所述样本文本和所述训练提 示文本进行拼接, 得到第输入二文本;
将所述第二输入文本输入待训练提取模型中, 得到所述待训练提取模型输出的第 二提
取文本;
根据所述第二 提取文本与所述标签 计算第一损失值;
根据所述第一损 失值对所述待训练提取模型进行调整, 返回执行所述获取样本文本、
所述训练提示文本和所述样本文本的标签以及后续步骤, 直到达到预设条件生成文本提取
模型。权 利 要 求 书 2/4 页
3
CN 115438163 A
3
专利 一种文本提取的方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:12:21上传分享