专利 图文匹配模型的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211219395.5 (22)申请日 2022.10.08 (71)申请人有米科技股份有限公司地址 510006 广东省广州市番禺区小谷围街青蓝街26号1701 (72)发明人陈畅新　李展铿　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师江银会 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/583(2019.01) G06K 9/62(2022.01) (54)发明名称图文匹配模型的训练方法及装置 (57)摘要本发明公开了一种图文匹配模型的训练方法及装置，该方法包括：获取用于图文匹配模型训练的训练数据集，训练数据集中包括多个文本数据和多个图像数据，将每个文本数据和每个图像数据分别输入至目标文本模型以及目标图像模型中得到文本编码向量和图像编码向量，并确定初始训练用图文数据组，将所有初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于初始训练数据输出结果，确定初始图文匹配模型的初始损失信息，若初始损失信息满足训练完成条件，则将初始图文匹配模型确定为目标图文匹配模型。可见，实施本发明能够提高图文匹配模型训练的效率，还能够基于图文匹配模型实现图文互搜以及多模态数据分类。权利要求书3页说明书19页附图3页 CN 115292455 A 2022.11.04 CN 115292455 A 1.一种图文匹配模型的训练方法，其特征在于，所述方法包括：获取用于图文匹配模型训练的训练数据集，所述训练数据集中包括多个文本数据和多个图像数据；针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量；针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组；将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，所述初始损失信息包括文本重建损失信息、对比学习损失信息、图文匹配损失信息中的一种或多种；判断所述初始损失信息是否满足训练完成条件，当判断结果为是时，将所述初始图文匹配模型确定为目标图文匹配模型。 2.根据权利要求1所述的图文匹配模型的训练方法，其特征在于，在获取用于图文匹配模型训练的训练数据集之后，在针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，以及针对每个所述图像数据，将该图像数据输入至目标图像模型，得到图像编码向量之前，所述方法还包括：针对所述训练数据集中的每个所述文本数据，对该文本数据执行特征掩盖操作，得到特征掩盖文本数据；以及，所述针对每个所述文本数据，将该文本数据输入至目标文本模型，得到文本编码向量，包括：针对每个所述特征掩盖文本数据，将该特征掩盖文本数据输入至目标文本模型，得到文本编码向量，其中，所述文本编码向量包括该特征掩盖文本数据的预测文本数据。 3.根据权利要求2所述的图文匹配模型的训练方法，其特征在于，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：针对每个所述初始训练用图文数据组，将该初始训练用图文数据组中所包括的文本编码向量以及图像编码向量执行拼接操作，得到初始图文输入数据组；针对每个所述初始图文输入数据组，将该初始图文输入数据组输入至初始图文匹配模型，得到初始图文数据组输出结果；根据所有所述初始图文数据组输出结果，确定初始训练数据输出结果；其中，所述初始图文数据组输出结果包括多个初始图文输出数据组，所述初始图文输出数据组的数量与所述初始训练用图文数据组的数量相等，每个所述初始图文输出数据组包括文本数据输出结果以及图像数据输出结果。 4.根据权利要求3所述的图文匹配模型的训练方法，其特征在于，所述针对每个所述文本编码向量，在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向量，并将该文本编码向量和与该文本编码向量相匹配的图像编码向量确定为一个初始训练用图文数据组之后，所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹权　利　要　求　书 1/3 页 2 CN 115292455 A 2配模型，得到初始训练数据输出结果之前，所述方法还包括：从所有所述初始训练用图文数据组中确定出至少两个第一训练用图文数据组，将所有所述第一训练用图文数据组中所包括的所述文本数据与所述图像数据重新组合，得到第二训练用图文数据组，每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练用图文数据组中所包括的数据不均相同；将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组；所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果，包括：将所有所述目标训练用图文数据组输入至预先设定的初始图文匹配模型，得到初始训练数据输出结果。 5.根据权利要求4所述的图文匹配模型的训练方法，其特征在于，当所述初始损失信息包括所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息时，所述基于所述初始训练数据输出结果，确定所述初始图文匹配模型的初始损失信息，包括：针对每个所述文本编码向量，从所述训练数据集中确定出与该文本编码向量相匹配的目标文本数据，并根据该文本编码向量以及所述目标文本数据，确定该文本编码向量的文本重建损失信息，根据所有所述文本编码向量的文本重建损失信息，确定文本重建损失信息；针对每个所述初始图文输出数据组中的所述文本数据输出结果，计算该文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数，得到每个所述文本数据输出结果与每个所述图像数据输出结果之间的特征匹配参数，根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息；根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息；基于所述文本重建损失信息、所述对比学习损失信息以及所述图文匹配损失信息，确定所述初始图文匹配模型的初始损失信息。 6.根据权利要求5所述的图文匹配模型的训练方法，其特征在于，所述根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的图文匹配损失信息，包括：基于每个所述初始图文数据组输出结果中所包括的所述文本数据输出结果以及所述图像数据输出结果，从所述初始图文数据组输出结果中所包括的所有所述初始图文数据组中确定出与所述初始训练用图文数据组相同的第一输出图文数据组，并将除所有所述第一输出图文数据组外的所有所述输出图文数据组确定为第二输出图文数据组；根据所有所述第一输出图文数据组、所有所述第二输出图文数据组以及所有所述初始训练用图文数据组，确定所述初始图文匹配模型的输出数据匹配度；根据所述输出数据匹配度以及预先确定出的图文匹配函数，确定所述初始图文匹配模型的图文匹配损失信息。 7.根据权利要求6所述的图文匹配模型的训练方法，其特征在于，所述根据所有所述特征匹配参数确定所述初始图文匹配模型的对比学习损失信息，包括：权　利　要　求　书 2/3 页 3 CN 115292455 A 3

专利 图文匹配模型的训练方法及装置

专利图文匹配模型的训练方法及装置