团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020195.7 (22)申请日 2022.08.24 (71)申请人 灵犀量子 (北京) 医疗科技有限公司 地址 100161 北京市丰台区南四环西路186 号四区5号楼5层09室 (72)发明人 王则远 任丽军 刘鹏 张震  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 常芳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称 一种文本处 理方法及设备 (57)摘要 本发明提供一种文本处理方法及设备, 可以 获得文献关键词生成模型; 其中, 文献关键词生 成模型是基于模 型处理方式生 成的, 模型处理方 式至少包括训练方式, 训练方式是基于提示学习 范式生成的至少一个训练样本, 对 预训练语言模 型进行训练的; 获得目标文 献的摘要文本和题目 文本; 将目标文献的摘要文本和题目文本输入至 文献关键词生成模型中; 获得由文献关键词生成 模型生成并输出的目标文献的至少一个文献关 键词。 本发 明可以获得具备预测和生成文献关键 词能力的文献关键词生成模型, 通过使用文 献关 键词生成模型, 来预测和生 成目标文献的文 献关 键词, 无需通过人工提取的处理方式来从文 献中 提取出文献关键词, 可以有效提高文献关键词的 生成效率。 权利要求书2页 说明书13页 附图5页 CN 115422324 A 2022.12.02 CN 115422324 A 1.一种文本处 理方法, 其特 征在于, 包括: 获得文献关键词生成模型; 其中, 所述文献关键词生成模型是基于模型处理方式生成 的, 所述模型处理方式至少包括训练方式, 所述训练方式是基于提示学习 范式生成的至少 一个训练样本, 对预训练语言模型进行训练的; 获得目标文献的摘要 文本和题目文本; 将所述目标文献的摘要 文本和题目文本 输入至所述文献关键词生成模型中; 获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。 2.根据权利要求1所述的文本处理方法, 其特征在于, 当所述模型处理方式仅包括所述 训练方式时, 所述获得文献关键词生成模型, 包括: 获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本; 其中, 所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本 模板, 各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献 描述模板中的预定义 位置处而生成的; 分别将各 所述文献描述文本和相对应的文献摘要 文本确定为各 所述训练样本; 使用各所述训练样本对所述预训练语言模型进行训练, 以训练所述预训练语言模型预 测文献关键词的能力, 将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 3.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括: 反向 传播优化方式; 所述预训练语言模型中设置有旁支模型结构; 所述获得文献关键词生成模 型, 包括: 在使用所述训练方式对所述预训练语言模型进行训练的过程中, 通过所述旁支模型结 构对所述预训练语言模型的反向传播进行优化; 将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 4.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括: 白化 操作方式; 所述获得文献关键词生成模型, 包括: 利用所述白化操作方式对所述预训练语言模型进行白化操作处 理, 获得处 理后模型; 使用所述训练方式对所述处理后模型进行训练, 将训练好的所述处理后模型确定为所 述文献关键词生成模型。 5.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括模型评 估方式, 所述模型评估方式中包括预定义的模型评估指标, 所述模型评估指标包括样本分 类准确率阈值和综合指标阈值, 所述综合指标阈值为关于精度与召回率的综合指标的阈 值; 所述获得文献关键词生成模型, 包括: 使用所述训练方式对所述预训练语言模型进行训练, 获得已训练 的所述预训练语言模 型; 获得已训练的所述预训练语言模型的样本分类准确率和综合指标值; 如果所述样本分类准确率不小于所述样本分类准确率阈值, 且所述综合指标值不小于 所述综合指标阈值, 则确定已训练的所述预训练语言模型通过评估, 将已训练的所述预训 练语言模型确定为所述文献关键词生成模型。 6.根据权利要求5所述的文本处理方法, 其特征在于, 所述获得文献关键词生成模型, 还包括:权 利 要 求 书 1/2 页 2 CN 115422324 A 2如果所述样本分类准确率小于所述样本分类准确率阈值, 或所述综合指标值小于所述 综合指标阈值, 则确定已训练的所述预训练语言模型未通过评估, 返回执行所述使用所述 训练方式对所述预训练语言模型进行训练的步骤, 直至通过评估以获得所述文献关键词生 成模型。 7.一种文本处理装置, 其特征在于, 包括: 第一获得单元、 第 二获得单元、 第 一输入单元 和第三获得 单元, 其中: 所述第一获得单元, 用于获得文献关键词生成模型; 其中, 所述文献关键词生成模型是 基于模型处理方式生成的, 所述模型处理方式至少包括训练方式, 所述训练方式是基于提 示学习范式生成的至少一个训练样本, 对预训练语言模型进行训练的; 所述第二获得 单元, 用于获得目标文献的摘要 文本和题目文本; 所述第一输入单元, 用于将所述目标文献的摘要文本和题目文本输入至所述文献关键 词生成模型中; 所述第三获得单元, 用于获得由所述文献关键词生成模型生成并输出的所述目标文献 的至少一个文献关键词。 8.根据权利要求7所述的文本处理装置, 其特征在于, 当所述模型处理方式仅包括所述 训练方式时, 所述第一获得单元包括: 第四获得单元、 第一确定单元、 第一训练单元和第二 确定单元; 所述第四获得单元, 用于获得在文献描述模板的基础上生成的至少一个与文献相对应 的文献描述文本; 其中, 所述文献描述模板为基于提示学习 范式设计出 的用于描述文献题 目和文献关键词的文本模板, 各所述文献描述文本均是通过将文献的文献题目和文献关键 词分别填充至所述文献描述模板中的预定义 位置处而生成的; 所述第一确定单元, 用于分别将各所述文献描述文本和相对应的文献摘要文本确定为 各所述训练样本; 所述第一训练单元, 用于使用各所述训练样本对所述预训练语言模型进行训练, 以训 练所述预训练语言模型 预测文献关键词的能力; 所述第二确定单元, 用于将训练好的所述预训练语言模型确定为所述文献关键词生成 模型。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所 述文本处 理方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至 6任一项所述文本处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 115422324 A 3

.PDF文档 专利 一种文本处理方法及设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法及设备 第 1 页 专利 一种文本处理方法及设备 第 2 页 专利 一种文本处理方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:12:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。