团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211082669.0 (22)申请日 2022.09.06 (71)申请人 中国人民解 放军军事科学院系统工 程研究院 地址 100141 北京市丰台区丰 体南路2号院 (72)发明人 杨健 肖刚 韩君妹 黄伟春 袁皓 (74)专利代理 机构 北京融智邦 达知识产权代理 事务所(普通 合伙) 11885 专利代理师 吴强 (51)Int.Cl. G06N 20/00(2019.01) G06F 40/237(2020.01) G06F 40/284(2020.01) G06F 40/186(2020.01)G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 16/332(2019.01) (54)发明名称 一种预训练语言模型微调方法、 系统及装置 (57)摘要 本发明提供了一种预训练语言模型微调方 法、 系统及装置, 涉及人工智能技术领域, 所述方 法包括: 针对每一类任务, 通过初始预训练语言 模型制定文本提示模板; 将训练数据整理成批次 数据并进行合并; 打乱合并后的批次数据顺序; 通过多任务学习微调预训练语言模 型的参数。 通 过上述方法, 避免了预训练模型在微调数据不足 的场景下出现过拟合或欠拟合的现象, 解决了装 备等领域中预训练模型进行少样 本学习的问题, 实现了预训练模型的高效联合 微调。 权利要求书2页 说明书6页 附图4页 CN 115423118 A 2022.12.02 CN 115423118 A 1.一种预训练语言模型微调方法, 其特征在于, 包括: 针对每一类任务, 通过初始预训 练语言模型制 定文本提示模板; 将训练数据整理成批次数据并进行合并; 打乱合并后的批 次数据顺序; 通过多任务学习微调预训练语言模型的参数。 2.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 制定文本提示模板的 方法包括: 基于每一类任务构建包含问题和答案的语句; 基于每一类任务的语句提取关键 词; 基于预训练语言模型的词向量表, 将关键词投影成关键词表示向量, 并构建上下文表 示 向量, 将二者拼接成文本提示模板; 基于所述文本提示模板, 将语言模型函数作为损失函 数, 通过最小化损失函数的方式更新所述预训练语言模型的参数。 3.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述语句以生成式文 本序列表示。 4.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述关键词包括任务 模式关键词、 答案关键词和特定标点符号。 5.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述上下文表示向 量, 用于表示任务中关键词之外的其 他特征。 6.根据权利要求2所述的预训练语言模型微调方法, 其特征在于, 所述文本提示模板包 括字符串形式的单词和向量形式的虚拟词。 7.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 所述批次数据有统一 的输入序列长度, 若出现序列长度不足的情况, 通过填充的方式补齐输入序列长度。 8.根据权利要求1所述的预训练语言模型微调方法, 其特征在于, 所述多任务学习的方 法包括: 合并所有种类任务的批次数据作为训练集; 打乱所述训练集的顺序; 计算损失函数 的损失值; 基于所述损失值计算梯度值; 基于所述梯度值更新预训练语言模型的参数。 9.一种用于权利要求1~8任一所述预训练语言模型微调方法的预训练语言模型微调 装置, 其特征在于, 所述装置包括处理器、 存储器、 总线, 所述存储器存储可由处理器读取的 指令及数据; 所述处理器用于调用所述存储器中的指令及数据; 所述总线连接各功 能部件 之间传送信息 。 10.一种预训练语言模型微调系统, 其特征在于, 包括数据接收模块、 数据处理模块和 模型输出模块: 所述数据接收模块, 用于 接收任务数据; 所述数据处理模块, 包括预训练语言模型单元、 文本提示模板单元、 批次数据合并单 元、 批次数据打乱单 元、 多任务学习微调单 元: 所述预训练语言模型 单元, 用于存 储初始预训练语言模型; 所述文本提示模板单元, 针对每一类任务, 通过初始预训练语言模型制定文本提示模 板; 所述批次数据合并单元, 将包括文本提示模板的训练数据整理成批次数据并进行合并 后发送至 批次数据打乱单 元; 所述批次数据打乱单元, 接收合并后的批次数据后, 打乱批次数据顺序, 发送至多任务 学习微调单 元; 所述多任务学习微调单元, 通过多类任务联合学习的方式, 微调预训练语言模型的参 数;权 利 要 求 书 1/2 页 2 CN 115423118 A 2所述模型输出模块, 用于 输出微调参数后的预训练语言模型。权 利 要 求 书 2/2 页 3 CN 115423118 A 3
专利 一种预训练语言模型微调方法、系统及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:13:18
上传分享
举报
下载
原文档
(760.0 KB)
分享
友情链接
GB 7260.1-2008 不间断电源第1-1部分 一般规定和安全要求.pdf
GB-T 39201-2020 高铝粉煤灰提取氧化铝技术规范.pdf
T-CNLIC 0089—2023 绿色设计产品评价技术规范 家具用软质聚氨酯泡沫塑料.pdf
DB64-T 1963—2023 机关事务信息化系统运行管理规范 宁夏回族自治区.pdf
NY-T 3866-2021 草地贪夜蛾测报技术规范.pdf
GB-T 35651-2017 突发事件应急标绘图层规范.pdf
GB-T 28517-2012 网络安全事件描述和交换格式.pdf
GB-T 30354-2013 食用植物油散装运输规范.pdf
GB-T 37093-2018 信息安全技术 物联网感知层接入通信网的安全要求.pdf
GB-T 19001-2016 ISO90012015 质量管理体系要求.pdf
GB-T 42578-2023 北斗剖分时间码.pdf
SL-T 247-2020 水文资料整编规范.pdf
DB52-T 1741-2023 快递绿色包装使用评价规范 贵州省.pdf
GB-T 30591-2014 建筑门窗洞口尺寸协调要求.pdf
SN-T 4062-2014 出口植物性中药材中稀土元素的测定方法.pdf
中国软件测评中心 数据安全复合治理与实践白皮书.pdf
T-CHES 45—2020 雷达水位计.pdf
GB-T 4209-2022 工业硅酸钠.pdf
GMT 0051-2016 密码设备管理 对称密钥管理技术规范.pdf
GM T 0131-2023 电子签章应用接口规范.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(760.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。