团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211020195.7 (22)申请日 2022.08.24 (71)申请人 灵犀量子 (北京) 医疗科技有限公司 地址 100161 北京市丰台区南四环西路186 号四区5号楼5层09室 (72)发明人 王则远 任丽军 刘鹏 张震 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 常芳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) (54)发明名称 一种文本处 理方法及设备 (57)摘要 本发明提供一种文本处理方法及设备, 可以 获得文献关键词生成模型; 其中, 文献关键词生 成模型是基于模 型处理方式生 成的, 模型处理方 式至少包括训练方式, 训练方式是基于提示学习 范式生成的至少一个训练样本, 对 预训练语言模 型进行训练的; 获得目标文 献的摘要文本和题目 文本; 将目标文献的摘要文本和题目文本输入至 文献关键词生成模型中; 获得由文献关键词生成 模型生成并输出的目标文献的至少一个文献关 键词。 本发 明可以获得具备预测和生成文献关键 词能力的文献关键词生成模型, 通过使用文 献关 键词生成模型, 来预测和生 成目标文献的文 献关 键词, 无需通过人工提取的处理方式来从文 献中 提取出文献关键词, 可以有效提高文献关键词的 生成效率。 权利要求书2页 说明书13页 附图5页 CN 115422324 A 2022.12.02 CN 115422324 A 1.一种文本处 理方法, 其特 征在于, 包括: 获得文献关键词生成模型; 其中, 所述文献关键词生成模型是基于模型处理方式生成 的, 所述模型处理方式至少包括训练方式, 所述训练方式是基于提示学习 范式生成的至少 一个训练样本, 对预训练语言模型进行训练的; 获得目标文献的摘要 文本和题目文本; 将所述目标文献的摘要 文本和题目文本 输入至所述文献关键词生成模型中; 获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。 2.根据权利要求1所述的文本处理方法, 其特征在于, 当所述模型处理方式仅包括所述 训练方式时, 所述获得文献关键词生成模型, 包括: 获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本; 其中, 所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本 模板, 各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献 描述模板中的预定义 位置处而生成的; 分别将各 所述文献描述文本和相对应的文献摘要 文本确定为各 所述训练样本; 使用各所述训练样本对所述预训练语言模型进行训练, 以训练所述预训练语言模型预 测文献关键词的能力, 将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 3.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括: 反向 传播优化方式; 所述预训练语言模型中设置有旁支模型结构; 所述获得文献关键词生成模 型, 包括: 在使用所述训练方式对所述预训练语言模型进行训练的过程中, 通过所述旁支模型结 构对所述预训练语言模型的反向传播进行优化; 将训练好的所述预训练语言模型确定为所述文献关键词生成模型。 4.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括: 白化 操作方式; 所述获得文献关键词生成模型, 包括: 利用所述白化操作方式对所述预训练语言模型进行白化操作处 理, 获得处 理后模型; 使用所述训练方式对所述处理后模型进行训练, 将训练好的所述处理后模型确定为所 述文献关键词生成模型。 5.根据权利要求1所述的文本处理方法, 其特征在于, 所述模型处理方式还包括模型评 估方式, 所述模型评估方式中包括预定义的模型评估指标, 所述模型评估指标包括样本分 类准确率阈值和综合指标阈值, 所述综合指标阈值为关于精度与召回率的综合指标的阈 值; 所述获得文献关键词生成模型, 包括: 使用所述训练方式对所述预训练语言模型进行训练, 获得已训练 的所述预训练语言模 型; 获得已训练的所述预训练语言模型的样本分类准确率和综合指标值; 如果所述样本分类准确率不小于所述样本分类准确率阈值, 且所述综合指标值不小于 所述综合指标阈值, 则确定已训练的所述预训练语言模型通过评估, 将已训练的所述预训 练语言模型确定为所述文献关键词生成模型。 6.根据权利要求5所述的文本处理方法, 其特征在于, 所述获得文献关键词生成模型, 还包括:权 利 要 求 书 1/2 页 2 CN 115422324 A 2如果所述样本分类准确率小于所述样本分类准确率阈值, 或所述综合指标值小于所述 综合指标阈值, 则确定已训练的所述预训练语言模型未通过评估, 返回执行所述使用所述 训练方式对所述预训练语言模型进行训练的步骤, 直至通过评估以获得所述文献关键词生 成模型。 7.一种文本处理装置, 其特征在于, 包括: 第一获得单元、 第 二获得单元、 第 一输入单元 和第三获得 单元, 其中: 所述第一获得单元, 用于获得文献关键词生成模型; 其中, 所述文献关键词生成模型是 基于模型处理方式生成的, 所述模型处理方式至少包括训练方式, 所述训练方式是基于提 示学习范式生成的至少一个训练样本, 对预训练语言模型进行训练的; 所述第二获得 单元, 用于获得目标文献的摘要 文本和题目文本; 所述第一输入单元, 用于将所述目标文献的摘要文本和题目文本输入至所述文献关键 词生成模型中; 所述第三获得单元, 用于获得由所述文献关键词生成模型生成并输出的所述目标文献 的至少一个文献关键词。 8.根据权利要求7所述的文本处理装置, 其特征在于, 当所述模型处理方式仅包括所述 训练方式时, 所述第一获得单元包括: 第四获得单元、 第一确定单元、 第一训练单元和第二 确定单元; 所述第四获得单元, 用于获得在文献描述模板的基础上生成的至少一个与文献相对应 的文献描述文本; 其中, 所述文献描述模板为基于提示学习 范式设计出 的用于描述文献题 目和文献关键词的文本模板, 各所述文献描述文本均是通过将文献的文献题目和文献关键 词分别填充至所述文献描述模板中的预定义 位置处而生成的; 所述第一确定单元, 用于分别将各所述文献描述文本和相对应的文献摘要文本确定为 各所述训练样本; 所述第一训练单元, 用于使用各所述训练样本对所述预训练语言模型进行训练, 以训 练所述预训练语言模型 预测文献关键词的能力; 所述第二确定单元, 用于将训练好的所述预训练语言模型确定为所述文献关键词生成 模型。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所 述文本处 理方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至 6任一项所述文本处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 115422324 A 3
专利 一种文本处理方法及设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:12:19
上传分享
举报
下载
原文档
(629.9 KB)
分享
友情链接
GB-T 3620.1-2016 钛及钛合金牌号和化学成分.pdf
DB52-T 1124-2016 政府数据资源目录 第1部分:元数据描述规范 贵州省.pdf
T-CAAMM 28—2018 农业机械用轻型联组V带.pdf
DL-T 364-2019 光纤通道传输保护信息通用技术条件.pdf
禁止进口限制进口技术管理办法.pdf
T-ACEF 109—2023 公民绿色低碳行为温室气体减排量化指南 行:混合动力汽车出行.pdf
奇安信 实战攻防之蓝队视角下的防御体系构建.pdf
工业互联网标识管理办法.pdf
GB-T 40813-2021 信息安全技术 工业控制系统安全防护技术要求和测试评价方法.pdf
GB-T 25694-2021 土方机械 滑移转向装载机.pdf
YD-T 3835.1-2021 量子密钥分发(QKD)系统测试方法 第1部分:基于诱骗态BB84协议的QKD系统.pdf
商用密码应用安全性测评机构管理办法(试行).pdf
GB-T 33009.2-2016 工业自动化和控制系统网络安全 集散控制系统 DCS 第2部分:管理要求.pdf
GB-T 4723-2017 印制电路用覆铜箔酚醛纸层压板.pdf
GB-T 42327-2023 船用固定式化学干粉灭火系统.pdf
GB-T 38224.1-2019 重金属废水处理与回用技术评价 第1部分:程序和方法.pdf
GB/T 29827-2013 信息安全技术 可信计算规范 可信平台主板功能接口.pdf
DB14-T 2736—2023 池塘养殖尾水处理规范 山西省.pdf
GB-T 30285-2013 信息安全技术 灾难恢复中心建设与运维管理规范.pdf
T-HMDSXH 003—2022 电商产业园区数字化建设与管理指南.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(629.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。