专利 一种文本提取的方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211116156.7 (22)申请日 2022.09.14 (71)申请人太保科技有限公司地址 200010 上海市黄浦区中山南路1号1 1 层(名义楼层)1 1V6室 (72)发明人王思博　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师张志梅 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称一种文本提取的方法、装置、设备及存储介质 (57)摘要本申请提供了一种文本提取的方法、装置、设备及存储介质，应用于信息抽取技术领域。该方法包括：获取待提取文本和与待提取文本对应的提取提示文本，提取提示文本为指示提取样待提取文本中目标影响因子对应的实体的文本；将待提取文本和提取提示文本进行拼接，得到第一输入文本；将第一输入文本输入文本提取模型中，得到文本提取模型输出的第一提取文本，文本提取模型是根据样本文本和训练提示文本训练得到的，训练提示文本与样本文本对应，训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。通过将待提取文本与提取提示文本进行拼接，利用提取提示本文作为提示，能够有效地提取出目标文本。权利要求书4页说明书12页附图4页 CN 115438163 A 2022.12.06 CN 115438163 A 1.一种文本提取的方法，其特征在于，所述方法包括：获取待提取文本和与所述待提取文本对应的提取提示文本，所述提取提示文本为指示提取所述样待提取文本中目标影响因子对应的实体的文本；将所述待提取文本和所述提取提示文本进行拼接，得到第一输入文本；将所述第一输入文本输入文本提取模型中，得到所述文本提取模型输出的第一提取文本，所述文本提取模型是根据样本文本和训练提示文本训练得到的，所述训练提示文本与所述样本文本对应，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。 2.根据权利要求1所述的方法，其特征在于，所述文本提取模型是采用以下方法训练得到的：获取样本文本、所述训练提示文本和所述样本文本的标签，所述样本文本的标签为所述第一影响因子对应的实体的文本，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本；将所述样本文本和所述训练提示文本进行拼接，得到第输入二文本；将所述第二输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第二提取文本；根据所述第二提取文本与所述标签计算第一损失值；根据所述第一损失值对所述待训练提取模型进行调整，返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤，直到达到预设条件生成文本提取模型。 3.根据权利要求1所述的方法，其特征在于，所述文本提取模型是采用以下方法训练得到的：获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本，所述训练误导文本为指示提取所述样本文本中第三影响因子对应的实体的文本，所述样本文本的标签包括第一标签和第二标签，所述第一标签为所述第二影响因子对应的实体的文本，所述第二标签为所述第三影响因子对应的实体文本；将所述样本文本和所述训练提示文本进行拼接，得到第三输入文本；将所述第三输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第三提取文本；根据所述第三提取文本与所述第一标签计算第二损失值；将所述样本文本与所述训练误导文本进行拼接，得到第四输入文本；将所述第四输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第四提取文本；根据所述第四提取文本与所述第二标签计算第三损失值；将所述第二损失值和第三损失值按照权重比例进行计算，得到第四损失值；根据所述第四损失值对待训练提取模型进行调整，返回执行所述获取样本文本、所述训练提示文本、训练误导文本和所述样本文本的标签以及后续步骤，直到达到预设条件生成文本提取模型。权　利　要　求　书 1/4 页 2 CN 115438163 A 24.根据权利要求1所述的方法，其特征在于，所述文本提取模型是采用以下方法训练得到的：获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本，所述影响因子提示文本为指示提取所述样本文本中第四影响因子的文本，所述样本文本的标签包括第三标签和第四标签，所述第三标签为所述第二影响因子对应的实体的文本，所述第四标签为所述第四影响因子对应的实体的文本；将所述样本文本和所述训练提示文本进行拼接，得到第五输入文本；将所述第五输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第五提取文本；根据所述第五提取文本与所述第三标签计算第五损失值；将所述样本文本与所述影响因子提示文本进行拼接，得到第六输入文本；将所述第六输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第六提取文本；根据所述第六提取文本与所述第四标签计算第六损失值；将所述第五损失值和第六损失值按照权重比例进行计算，得到第七损失值；根据所述第七损失值对待训练提取模型进行调整，返回执行所述获取样本文本、所述训练提示文本、获取影响因子提示文本和所述样本文本的标签，以及后续步骤，直到达到预设条件生成文本提取模型。 5.一种文本提取的装置，其特征在于，所述装置包括：获取模块，用于获取待提取文本和与所述待提取文本对应的提取提示文本，所述提取提示文本为指示提取所述样待提取文本中目标影响因子对应的实体的文本；拼接模块，用于将所述待提取文本和所述提取提示文本进行拼接，得到第一输入文本；提取模块，用于将所述第一输入文本输入文本提取模型中，得到所述文本提取模型输出的第一提取文本，所述文本提取模型是根据样本文本和训练提示文本训练得到的，所述训练提示文本与所述样本文本对应，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本。 6.根据权利要求5所述的装置，其特征在于，所述文本提取模型是采用以下方法训练得到的：获取样本文本、所述训练提示文本和所述样本文本的标签，所述样本文本的标签为所述第一影响因子对应的实体的文本，所述训练提示文本为指示提取所述样本文本中第二影响因子对应的实体的文本；将所述样本文本和所述训练提示文本进行拼接，得到第输入二文本；将所述第二输入文本输入待训练提取模型中，得到所述待训练提取模型输出的第二提取文本；根据所述第二提取文本与所述标签计算第一损失值；根据所述第一损失值对所述待训练提取模型进行调整，返回执行所述获取样本文本、所述训练提示文本和所述样本文本的标签以及后续步骤，直到达到预设条件生成文本提取模型。权　利　要　求　书 2/4 页 3 CN 115438163 A 3

专利 一种文本提取的方法、装置、设备及存储介质

专利一种文本提取的方法、装置、设备及存储介质