团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211082669.0 (22)申请日 2022.09.06 (71)申请人 中国人民解 放军军事科学院系统工 程研究院 地址 100141 北京市丰台区丰 体南路2号院 (72)发明人 杨健 肖刚 韩君妹 黄伟春  袁皓  (74)专利代理 机构 北京融智邦 达知识产权代理 事务所(普通 合伙) 11885 专利代理师 吴强 (51)Int.Cl. G06N 20/00(2019.01) G06F 40/237(2020.01) G06F 40/284(2020.01) G06F 40/186(2020.01)G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 16/332(2019.01) (54)发明名称 一种预训练语言模型微调方法、 系统及装置 (57)摘要 本发明提供了一种预训练语言模型微调方 法、 系统及装置, 涉及人工智能技术领域, 所述方 法包括: 针对每一类任务, 通过初始预训练语言 模型制定文本提示模板; 将训练数据整理成批次 数据并进行合并; 打乱合并后的批次数据顺序; 通过多任务学习微调预训练语言模 型的参数。 通 过上述方法, 避免了预训练模型在微调数据不足 的场景下出现过拟合或欠拟合的现象, 解决了装 备等领域中预训练模型进行少样 本学习的问题, 实现了预训练模型的高效联合 微调。 权利要求书2页 说明书6页 附图4页 CN 115423118 A 2022.12.02 CN 115423118 A 1.一种预训练语言模型微调方法, 其特征在于, 包括: 针对每一类任务, 通过初始预训 练语言模型制 定文本提示模板; 将训练数据整理成批次数据并进行合并; 打乱合并后的批 次数据顺序; 通过多任务学习微调预训练语言模型的参数。 2.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 制定文本提示模板的 方法包括: 基于每一类任务构建包含问题和答案的语句; 基于每一类任务的语句提取关键 词; 基于预训练语言模型的词向量表, 将关键词投影成关键词表示向量, 并构建上下文表 示 向量, 将二者拼接成文本提示模板; 基于所述文本提示模板, 将语言模型函数作为损失函 数, 通过最小化损失函数的方式更新所述预训练语言模型的参数。 3.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述语句以生成式文 本序列表示。 4.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述关键词包括任务 模式关键词、 答案关键词和特定标点符号。 5.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述上下文表示向 量, 用于表示任务中关键词之外的其 他特征。 6.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述文本提示模板包 括字符串形式的单词和向量形式的虚拟词。 7.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 所述批次数据有统一 的输入序列长度, 若出现序列长度不足的情况, 通过填充的方式补齐输入序列长度。 8.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 所述多任务学习的方 法包括: 合并所有种类任务的批次数据作为训练集; 打乱所述训练集的顺序; 计算损失函数 的损失值; 基于所述损失值计算梯度值; 基于所述梯度值更新预训练语言模型的参数。 9.一种用于权利要求1~8任一所述预训练语言模型微调方法的预训练语言模型微调 装置, 其特征在于, 所述装置包括处理器、 存储器、 总线, 所述存储器存储可由处理器读取的 指令及数据; 所述处理器用于调用所述存储器中的指令及数据; 所述总线连接各功 能部件 之间传送信息 。 10.一种预训练语言模型微调系统, 其特征在于, 包括数据接收模块、 数据处理模块和 模型输出模块: 所述数据接收模块, 用于 接收任务数据; 所述数据处理模块, 包括预训练语言模型单元、 文本提示模板单元、 批次数据合并单 元、 批次数据打乱单 元、 多任务学习微调单 元: 所述预训练语言模型 单元, 用于存 储初始预训练语言模型; 所述文本提示模板单元, 针对每一类任务, 通过初始预训练语言模型制定文本提示模 板; 所述批次数据合并单元, 将包括文本提示模板的训练数据整理成批次数据并进行合并 后发送至 批次数据打乱单 元; 所述批次数据打乱单元, 接收合并后的批次数据后, 打乱批次数据顺序, 发送至多任务 学习微调单 元; 所述多任务学习微调单元, 通过多类任务联合学习的方式, 微调预训练语言模型的参 数;权 利 要 求 书 1/2 页 2 CN 115423118 A 2所述模型输出模块, 用于 输出微调参数后的预训练语言模型。权 利 要 求 书 2/2 页 3 CN 115423118 A 3

.PDF文档 专利 一种预训练语言模型微调方法、系统及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种预训练语言模型微调方法、系统及装置 第 1 页 专利 一种预训练语言模型微调方法、系统及装置 第 2 页 专利 一种预训练语言模型微调方法、系统及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。