专利 下游任务模型生成及任务执行的方法和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211387996.7 (22)申请日 2022.11.08 (71)申请人阿里巴巴达摩院（杭州）科技有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层516室 (72)发明人杨浩　林俊旸　杨安　王鹏　周畅　杨红霞　 (74)专利代理机构北京同钧律师事务所 16 037 专利代理师柴海平　许怀远 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01)G06F 16/332(2019.01) (54)发明名称下游任务模型生成及任务执行的方法和设备 (57)摘要本申请提供一种下游任务模型生成及任务执行的方法和设备。本申请的方法，通过获取所述下游任务场景下的训练数据集，并在预训练模型的原有参数上增加下游任务执行参数，在对预训练模型进行微调训练过程中，固定预训练模型的原有参数，只基于下游任务场景下的训练数据集优化增加的少量下游任务执行参数，从而可以保留预训练模型在预训练预语料中学习的知识，并且减少需要优化的参数数量，在仅仅使用少量样本的情况获得较好的微调训练效果，能够减少微调所有模型参数带来的计算开销，提高预训练模型微调的效率，实现预训练模型的快速微调，提高下游任务模型的生成效率和性能。权利要求书3页说明书16页附图8页 CN 115438176 A 2022.12.06 CN 115438176 A 1.一种下游任务模型生成方法，其特征在于，所述下游任务模型应用于自然语言处理领域或计算机视觉领域，所述方法包括：获取下游任务场景下的训练数据集；在预训练模型的原有参数上增加下游任务执行参数；使用所述训练数据集调整所述预训练模型中的下游任务执行参数，生成所述下游任务的任务模型，所述下游任务的任务模型用于执行所述下游任务。 2.根据权利要求1所述的方法，其特征在于，所述在预训练模型的原有参数上增加下游任务执行参数，包括：从设置的词表中选择多个词，生成所述多个词的词向量；根据所述多个词的词向量，生成所述预训练模型中每层对应的下游任务执行参数，每层对应的下游任务执行参数包含至少一个词向量；在所述预训练模型中每层的原有参数上增加对应的下游任务执行参数。 3.根据权利要求2所述的方法，其特征在于，还包括：根据所述下游任务场景下的训练数据集，设置所述下游任务场景下使用的词表。 4.根据权利要求2所述的方法，其特征在于，所述在所述预训练模型中每层的原有参数上增加对应的下游任务执行参数，包括：在所述预训练模型中每层的原有参数的前面拼接对应的下游任务执行参数。 5.根据权利要求1所述的方法，其特征在于，所述获取下游任务场景下的训练数据集，包括：获取所述下游任务场景下的样本数据；根据所述下游任务场景下任务模型的输入的格式信息，生成所述样本数据对应的输入信息；获取所述输入信息对应的标注数据，所述输入信息及标注数据构成训练数据集。 6.根据权利要求5所述的方法，其特征在于，所述根据所述下游任务场景下任务模型的输入的格式信息，生成所述样本数据对应的输入信息，包括：获取所述下游任务场景下的输入提示模板，所述输入提示模板根据所述下游任务场景下任务模型的输入的格式信息确定；根据所述样本数据和所述下游任务场景下的输入提示模板，生成所述样本数据对应的输入信息。 7.根据权利要求1所述的方法，其特征在于，在生成所述下游任务的任务模型之后，还包括：将所述下游任务的任务模型发送至用于执行下游任务的电子设备。 8.根据权利要求1所述的方法，其特征在于，在生成所述下游任务的任务模型之后，还包括：存储所述下游任务的任务模型；响应于所述下游任务的执行指令，获取所述下游任务的输入数据；根据所述下游任务场景下任务模型的输入的格式信息，生成任务模型的输入信息；将所述输入信息输入所述下游任务的任务模型进行处理，得到下游任务处理结果；输出所述下游任务处理结果。权　利　要　求　书 1/3 页 2 CN 115438176 A 29.根据权利要求1 ‑8中任一项所述的方法，其特征在于，所述预训练模型为预训练的语言模型，所述下游任务包括如下至少一种：视觉问答任务，用于根据输入的图像和问题，从输入图像的视觉信息中确定问题的答案；图像描述任务，用于生成输入图像的描述文本；视觉蕴涵任务，用于预测输入图像和文本在语义上的相关性；指代表达与理解任务，用于根据输入文本定位输入图像中与输入文本对应的图像区域；图像生成任务，用于基于输入的描述文本生成图像；基于文本的情感分类任务，用于预测输入文本的情感分类信息；文本摘要任务，用于生成输入文本的摘要信息。 10.一种任务执行方法，其特征在于，应用于自然语言处理领域或计算机视觉领域，所述方法包括：响应于下游任务执行指令，获取输入数据；根据所述下游任务场景下任务模型的输入的格式信息，生成所述输入数据对应的输入信息；将所述输入信息输入训练好的任务模型进行处理，得到任务处理结果，所述任务模型是通过在预训练模型的原有参数上增加下游任务执行参数，基于所述下游任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整后得到的；输出所述任务处理结果。 11.一种视觉问答任务执行方法，其特征在于，包括：获取输入的图像和问题文本；根据视觉问答任务场景下视觉问答任务模型的输入的格式信息、所述图像和问题文本，生成视觉问答任务模型的输入信息；将所述输入信息输入视觉问答任务模型进行处理，得到所述问题文本对应的答案文本，所述视觉问答任务模型是通过在预训练模型的原有参数上增加下游任务执行参数，基于所述视觉问答任务场景下的训练数据集对所述预训练模型中的下游任务执行参数进行调整得到的；输出所述问题文本对应的答案文本。 12.根据权利要求11所述的方法，其特征在于，所述根据视觉问答任务场景下的输入提示模板、所述图像和问题文本，生成视觉问答任务模型的输入信息，包括：对所述图像进行编码，生成对应的图像向量，并对所述问题文本进行编码，生成对应的文本向量；根据所述视觉问答任务场景下的输入提示模板，将所述图像向量与所述文本向量拼接，得到视觉问答任务模型的输入信息。 13.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1 ‑12中任一项权　利　要　求　书 2/3 页 3 CN 115438176 A 3

专利 下游任务模型生成及任务执行的方法和设备

专利下游任务模型生成及任务执行的方法和设备