团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211248296.X (22)申请日 2022.10.12 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 孙振起 唐俊杰 阮诗斯 田宸宇  (74)专利代理 机构 北京博思佳知识产权代理有 限公司 1 1415 专利代理师 靳玫 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 一种训练样本生成方法、 装置、 计算机设备 及存储介质 (57)摘要 本说明书中提供了一种训练样 本生成方法、 装置、 计算机设备及存储介质, 获取带有风格的 导航播报语句, 并确定导航播报语句中的风格表 达短句、 风格表达词和导航播报语句对应的风 格; 所述风格表达短句为不包含导航播报信息的 短句; 所述风格表达词为与风格表达内容相关的 词; 将风格表达短句替换为第一标记, 将风格表 达词替换为第二标记, 得到已处理导航播报语 句; 所述第一标记用于表征待训练网络需要还原 的短句, 所述第二标记用于表征所述待训练网络 需要还原的字词; 生成所述待训练网络的训练样 本, 所述训练样本的特征值包括已处理导航播报 语句与所述导航播报语句对应的风格, 所述训练 样本的标签包括所述带有风格的导 航播报语句。 权利要求书2页 说明书16页 附图3页 CN 115526262 A 2022.12.27 CN 115526262 A 1.一种训练样本生成方法, 包括: 获取带有风格的导航播报语句, 并确定导航播报语句中的风格表达短句、 风格表达词 和导航播报语句对应的风格; 所述风格表达短句为不包含导航播报信息的短句; 所述风格 表达词为与风格表达内容相关的词; 将风格表达短句替换为第一标记, 将风格表达词替换为第二标记, 得到已处理导航播 报语句; 所述第一标记用于表征待训练网络需要还原的短句, 所述第二标记用于表征所述 待训练网络需要还原的字词; 生成所述待训练网络的训练样本, 所述训练样本包括特征值和标签, 所述训练样本的 特征值包括已处理导航播报 语句与所述导航播报 语句对应的风格, 所述训练样本的标签包 括所述带有风格的导 航播报语句。 2.根据权利要求1所述的方法, 所述确定导 航播报语句中的风格表达短句, 包括: 获取导航领域词; 基于标点符号, 将所述带有风格的导 航播报语句拆分为多个播报短句; 确定各播报短句中导航领域词的占比, 将导航领域词占比小于预设占比阈值的播报短 句作为风格表达短句。 3.根据权利要求1所述的方法, 所述方法还包括: 确定导航播报语句中的播报 实体; 所述播报实体包括播报主语, 和与 所述播报主语相关联的实体信息; 所述训练样本的特征值的获取过程, 包括: 将所述已处理导航播报语句、 所述导航播报 语句对应的风格与确定的播报实体进行拼接, 得到待训练网络的特 征值。 4.根据权利要求1所述的方法, 所述方法还包括: 确定导航播报语句中的关键词; 所述关键词为导航播报语句中与导 航播报场景相关的词; 所述训练样本的特征值的获取过程, 包括: 将所述已处理导航播报语句所述导航播报 语句对应的风格与确定的关键词进行拼接, 得到待训练网络的特 征值。 5.根据权利要求1所述的方法, 所述将风格表达短句替换为第 一标记, 将风格表达词替 换为第二标记, 包括: 从所述导航播报语句包括的风格表达短句中筛选出至少一个风格表达短句, 将筛选出 的风格表达短句替换为第一标记; 从所述导航播报语句包括的风格表达词中筛选出至少一个风格表达词, 将筛选出的风 格表达词替换为第二标记。 6.一种导 航播报语句生成网络的训练方法, 包括: 通过权利要求1 ‑5任一项所述的方法, 获取训练样本集 合中的各个训练样本; 将所述训练样本 中的所述特征值作为预训练语言网络的输入, 根据所述特征值和所述 训练样本中的标签对所述语言网络进行更新, 得到导航播报语句生成网络; 所述导航播报 语句生成网络用于基于无风格的导航播报语句和预期的风格生成带有风格的导航播报语 句。 7.一种导 航播报语句的生成方法, 包括: 获取网络输入信 息, 所述网络输入信 息包括: 第 一导航播报语句、 以及期望生成的导航权 利 要 求 书 1/2 页 2 CN 115526262 A 2播报语句的风格, 所述第一导航播报语句为去除风格表达词的无风格的导航播报语句; 所 述导航播报语句生成网络通过权利要求6的方法训练得到; 将所述网络输入信 息输入导航播报语句生成网络, 得到所述导航播报语句生成网络输 出的第二导航播报语句, 所述第二导航播报 语句是与第一导航播报 语句对应的带有风格的 导航播报语句。 8.一种训练样本生成装置, 包括: 语句获取模块, 用于获取带有风格的导航播报语句, 并确定导航播报语句中的风格表 达短句、 风格表达词和导航播报语句对应的风格; 所述风格表达短句为不包含导航播报信 息的短句; 所述 风格表达词为与风格表达内容相关的词; 标记替换模块, 用于将风格表达短句替换为第 一标记, 将风格表达词替换为第 二标记, 得到已处理导航播报语句; 所述第一标记用于表征待训练网络需要还原的短句, 所述第二 标记用于表征 所述待训练网络需要还原的字词; 样本生成模块, 用于生成所述待训练网络的训练样本, 所述训练样本包括特征值和标 签, 所述训练样本的特征值包括已处理导航播报语句与所述导航播报语句对应的风格, 所 述训练样本的标签包括所述带有风格的导 航播报语句。 9.一种导 航播报语句生成网络的训练装置, 包括: 样本获取模块, 用于通过权利要求1 ‑5任一项所述的方法, 获取训练样本集合中的各个 训练样本; 网络训练模块, 用于将所述训练样本中的所述输入信息作为预训练语言网络的输入, 根据所述输入信息和所述训练样本中的标签对所述语言 网络进行更新, 得到导航播报语句 生成网络; 所述导航播报 语句生成网络用于基于无风格的导航播报 语句和预期的风格生成 带有风格的导 航播报语句。 10.一种导 航播报语句的生成装置, 包括: 输入信息获取模块, 用于获取网络输入信 息, 所述网络输入信 息包括: 第 一导航播报语 句、 以及期望生成的导航播报语句的风格, 所述第一导航播报语句为去除风格表达词的无 风格的导 航播报语句; 所述 导航播报语句生成网络通过权利要求6的方法训练得到; 语句生成模块, 用于将所述网络输入信息输入导航播报语句生成网络, 得到所述导航 播报语句生成网络输出的第二导航播报 语句, 所述第二导航播报 语句是与第一导航播报 语 句对应的带风格 语句。 11.一种计算机设备, 包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处理器通过运行所述可执行指令以实现如权利要求1 ‑7中任一项所述的方 法。 12.一种计算机可读存储介质, 所述计算机可读存储介质上存储有计算机指令, 所述计 算机指令被处 理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115526262 A 3

.PDF文档 专利 一种训练样本生成方法、装置、计算机设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种训练样本生成方法、装置、计算机设备及存储介质 第 1 页 专利 一种训练样本生成方法、装置、计算机设备及存储介质 第 2 页 专利 一种训练样本生成方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。