专利 一种文本处理方法及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211020195.7 (22)申请日 2022.08.24 (71)申请人灵犀量子（北京）医疗科技有限公司地址 100161 北京市丰台区南四环西路186 号四区5号楼5层09室 (72)发明人王则远　任丽军　刘鹏　张震　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师常芳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称一种文本处理方法及设备 (57)摘要本发明提供一种文本处理方法及设备，可以获得文献关键词生成模型；其中，文献关键词生成模型是基于模型处理方式生成的，模型处理方式至少包括训练方式，训练方式是基于提示学习范式生成的至少一个训练样本，对预训练语言模型进行训练的；获得目标文献的摘要文本和题目文本；将目标文献的摘要文本和题目文本输入至文献关键词生成模型中；获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明可以获得具备预测和生成文献关键词能力的文献关键词生成模型，通过使用文献关键词生成模型，来预测和生成目标文献的文献关键词，无需通过人工提取的处理方式来从文献中提取出文献关键词，可以有效提高文献关键词的生成效率。权利要求书2页说明书13页附图5页 CN 115422324 A 2022.12.02 CN 115422324 A 1.一种文本处理方法，其特征在于，包括：获得文献关键词生成模型；其中，所述文献关键词生成模型是基于模型处理方式生成的，所述模型处理方式至少包括训练方式，所述训练方式是基于提示学习范式生成的至少一个训练样本，对预训练语言模型进行训练的；获得目标文献的摘要文本和题目文本；将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中；获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。 2.根据权利要求1所述的文本处理方法，其特征在于，当所述模型处理方式仅包括所述训练方式时，所述获得文献关键词生成模型，包括：获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本；其中，所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板，各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的；分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本；使用各所述训练样本对所述预训练语言模型进行训练，以训练所述预训练语言模型预测文献关键词的能力，将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 3.根据权利要求1所述的文本处理方法，其特征在于，所述模型处理方式还包括：反向传播优化方式；所述预训练语言模型中设置有旁支模型结构；所述获得文献关键词生成模型，包括：在使用所述训练方式对所述预训练语言模型进行训练的过程中，通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化；将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 4.根据权利要求1所述的文本处理方法，其特征在于，所述模型处理方式还包括：白化操作方式；所述获得文献关键词生成模型，包括：利用所述白化操作方式对所述预训练语言模型进行白化操作处理，获得处理后模型；使用所述训练方式对所述处理后模型进行训练，将训练好的所述处理后模型确定为所述文献关键词生成模型。 5.根据权利要求1所述的文本处理方法，其特征在于，所述模型处理方式还包括模型评估方式，所述模型评估方式中包括预定义的模型评估指标，所述模型评估指标包括样本分类准确率阈值和综合指标阈值，所述综合指标阈值为关于精度与召回率的综合指标的阈值；所述获得文献关键词生成模型，包括：使用所述训练方式对所述预训练语言模型进行训练，获得已训练的所述预训练语言模型；获得已训练的所述预训练语言模型的样本分类准确率和综合指标值；如果所述样本分类准确率不小于所述样本分类准确率阈值，且所述综合指标值不小于所述综合指标阈值，则确定已训练的所述预训练语言模型通过评估，将已训练的所述预训练语言模型确定为所述文献关键词生成模型。 6.根据权利要求5所述的文本处理方法，其特征在于，所述获得文献关键词生成模型，还包括：权　利　要　求　书 1/2 页 2 CN 115422324 A 2如果所述样本分类准确率小于所述样本分类准确率阈值，或所述综合指标值小于所述综合指标阈值，则确定已训练的所述预训练语言模型未通过评估，返回执行所述使用所述训练方式对所述预训练语言模型进行训练的步骤，直至通过评估以获得所述文献关键词生成模型。 7.一种文本处理装置，其特征在于，包括：第一获得单元、第二获得单元、第一输入单元和第三获得单元，其中：所述第一获得单元，用于获得文献关键词生成模型；其中，所述文献关键词生成模型是基于模型处理方式生成的，所述模型处理方式至少包括训练方式，所述训练方式是基于提示学习范式生成的至少一个训练样本，对预训练语言模型进行训练的；所述第二获得单元，用于获得目标文献的摘要文本和题目文本；所述第一输入单元，用于将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中；所述第三获得单元，用于获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。 8.根据权利要求7所述的文本处理装置，其特征在于，当所述模型处理方式仅包括所述训练方式时，所述第一获得单元包括：第四获得单元、第一确定单元、第一训练单元和第二确定单元；所述第四获得单元，用于获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本；其中，所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板，各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的；所述第一确定单元，用于分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本；所述第一训练单元，用于使用各所述训练样本对所述预训练语言模型进行训练，以训练所述预训练语言模型预测文献关键词的能力；所述第二确定单元，用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述文本处理方法的步骤。 10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 6任一项所述文本处理方法的步骤。权　利　要　求　书 2/2 页 3 CN 115422324 A 3

专利 一种文本处理方法及设备

专利一种文本处理方法及设备