(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211219395.5
(22)申请日 2022.10.08
(71)申请人 有米科技股份有限公司
地址 510006 广东省广州市番禺区小谷围
街青蓝街26号1701
(72)发明人 陈畅新 李展铿
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江银会
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 16/583(2019.01)
G06K 9/62(2022.01)
(54)发明名称
图文匹配模型的训练方法及装置
(57)摘要
本发明公开了一种图文匹配模型的训练方
法及装置, 该方法包括: 获取用于图文匹配模型
训练的训练数据集, 训练数据集中包括多个文本
数据和多个图像数据, 将每个文本数据和每个图
像数据分别输入至目标文本模型以及目标图像
模型中得到文本编码向量和图像编码向量, 并确
定初始训练用图文数据组, 将所有初始训练用图
文数据组输入至预先设定的初始图文匹配模型,
得到初始训练数据输出结果, 基于初始训练数据
输出结果, 确定初始图文匹配模 型的初始损失信
息, 若初始损失信息满足训练完成条件, 则将初
始图文匹配模型确定为目标图文匹配模型。 可
见, 实施本发 明能够提高图文匹配模 型训练的效
率, 还能够基于图文匹配模型实现图文互搜以及
多模态数据分类 。
权利要求书3页 说明书19页 附图3页
CN 115292455 A
2022.11.04
CN 115292455 A
1.一种图文匹配模型的训练方法, 其特 征在于, 所述方法包括:
获取用于图文 匹配模型训练 的训练数据集, 所述训练数据集中包括多个文本数据和多
个图像数据;
针对每个所述文本数据, 将该文本数据输入至目标文本模型, 得到文本编码向量, 以及
针对每个所述图像数据, 将该图像数据输入至目标图像模型, 得到图像编码向量;
针对每个所述文本编码向量, 在所有所述图像编码向量中确定出与 该文本编码向量相
匹配的图像编 码向量, 并将该文本编 码向量和与该文本编 码向量相匹配的图像编 码向量确
定为一个初始训练用图文数据组;
将所有所述初始训练用图文数据组输入至预先设定的初始图文 匹配模型, 得到初始训
练数据输出结果, 基于所述初始训练数据输出结果, 确定所述初始图文匹配模型 的初始损
失信息, 所述初始损失信息包括文本重 建损失信息、 对比学习损失信息、 图文匹配损失信息
中的一种或多种;
判断所述初始损 失信息是否满足训练完成条件, 当判断结果为是时, 将所述初始图文
匹配模型确定为目标图文匹配模型。
2.根据权利要求1所述的图文 匹配模型的训练方法, 其特征在于, 在获取用于图文 匹配
模型训练的训练数据集之后, 在针对每个所述文本数据, 将该文本数据输入至目标文本模
型, 得到文本编码向量, 以及针对每个所述图像数据, 将该图像数据输入至目标图像模型,
得到图像编码向量之前, 所述方法还 包括:
针对所述训练数据集中的每个所述文本数据, 对该文本数据执行特征掩盖操作, 得到
特征掩盖文本数据;
以及, 所述针对每个所述文本数据, 将该文本数据输入至目标文本模型, 得到文本编码
向量, 包括:
针对每个所述特征掩盖文本数据, 将该特征掩盖文本数据输入至目标文本模型, 得到
文本编码向量, 其中, 所述文本编码向量包括该 特征掩盖文本数据的预测文本数据。
3.根据权利要求2所述的图文 匹配模型的训练方法, 其特征在于, 所述将所有所述初始
训练用图文数据组输入至预先设定的初始图文匹配模型, 得到初始训练数据输出结果, 包
括:
针对每个所述初始训练用图文数据组, 将该初始训练用图文数据组中所包括的文本编
码向量以及图像编码向量执 行拼接操作, 得到初始图文输入数据组;
针对每个所述初始图文输入数据组, 将该初始图文输入数据组输入至初始图文 匹配模
型, 得到初始图文数据组输出 结果;
根据所有所述初始图文数据组输出 结果, 确定初始训练数据输出 结果;
其中, 所述初始图文数据组输出结果包括多个初始图文输出数据组, 所述初始图文输
出数据组的数量与所述初始训练用图文数据组的数量相等, 每个所述初始图文输出数据组
包括文本数据输出 结果以及图像数据输出 结果。
4.根据权利要求3所述的图文 匹配模型的训练方法, 其特征在于, 所述针对每个所述文
本编码向量, 在所有所述图像编码向量中确定出与该文本编码向量相匹配的图像编码向
量, 并将该文本编 码向量和与该文本编 码向量相匹配的图像编 码向量确定为一个初始训练
用图文数据组之后, 所述将所有 所述初始训练用图文 数据组输入至预先设定的初始图文匹权 利 要 求 书 1/3 页
2
CN 115292455 A
2配模型, 得到初始训练数据输出 结果之前, 所述方法还 包括:
从所有所述初始训练用图文数据组中确定出至少两个第 一训练用图文数据组, 将所有
所述第一训练用图文 数据组中所包括的所述文本数据与所述图像数据重新组合, 得到第二
训练用图文数据组, 每个所述第一训练用图文数据组中所包括的数据与每个所述第二训练
用图文数据组中所包括的数据不均相同;
将所有所述初始训练用图文数据组中除所有所述第一训练用图文数据组外的所有剩
余训练用图文数据组以及所有所述第二训练用图文数据组确定为目标训练用图文数据组;
所述将所有所述初始训练用图文数据组输入至预先设定的初始图文匹配模型, 得到初
始训练数据输出 结果, 包括:
将所有所述目标训练用图文数据组输入至预先设定的初始图文 匹配模型, 得到初始训
练数据输出 结果。
5.根据权利要求4所述的图文 匹配模型的训练方法, 其特征在于, 当所述初始损失信 息
包括所述文本重建损失信息、 所述对比学习损失信息以及所述图文匹配损失信息时, 所述
基于所述初始训练数据输出 结果, 确定所述初始图文匹配模型的初始损失信息, 包括:
针对每个所述文本编码向量, 从所述训练数据集中确定出与 该文本编码向量相匹配的
目标文本数据, 并根据该文本编码向量以及所述 目标文本数据, 确定该文本编码向量的文
本重建损失信息, 根据所有所述文本编码向量的文本重建损失信息, 确定文本重建损失信
息;
针对每个所述初始图文输出数据组中的所述文本数据输出结果, 计算该文本数据输出
结果与每个所述图像数据输出结果之 间的特征匹配参数, 得到每个所述文本数据输出结果
与每个所述图像数据输出结果之间的特征匹配参数, 根据所有所述特征匹配参数确定所述
初始图文匹配模型的对比学习损失信息;
根据所述初始图文数据组输出结果以及所有所述初始训练用图文数据组, 确定所述初
始图文匹配模型的图文匹配损失信息;
基于所述文本重建损 失信息、 所述对比学习损 失信息以及所述图文匹配损 失信息, 确
定所述初始图文匹配模型的初始损失信息 。
6.根据权利要求5所述的图文 匹配模型的训练方法, 其特征在于, 所述根据所述初始图
文数据组输出结果以及所有所述初始训练用图文 数据组, 确定所述初始图文匹配模型的图
文匹配损失信息, 包括:
基于每个所述初始图文数据组输出结果中所包括的所述文本数据输出结果以及所述
图像数据输出结果, 从所述初始图文 数据组输出结果中所包括的所有 所述初始图文数据组
中确定出与所述初始训练用图文 数据组相同的第一输出图文 数据组, 并将除所有 所述第一
输出图文数据组外的所有所述输出图文数据组确定为第二输出图文数据组;
根据所有所述第 一输出图文数据组、 所有所述第 二输出图文数据组以及所有所述初始
训练用图文数据组, 确定所述初始图文匹配模型的输出 数据匹配度;
根据所述输出数据匹配度以及预先确定出的图文 匹配函数, 确定所述初始图文 匹配模
型的图文匹配损失信息 。
7.根据权利要求6所述的图文 匹配模型的训练方法, 其特征在于, 所述根据所有所述特
征匹配参数确定所述初始图文匹配模型的对比学习损失信息, 包括:权 利 要 求 书 2/3 页
3
CN 115292455 A
3
专利 图文匹配模型的训练方法及装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:45上传分享