团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211052279.9 (22)申请日 2022.08.31 (71)申请人 北京沃东天骏信息技 术有限公司 地址 101116 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 高杰 (74)专利代理 机构 北京唯智勤实知识产权代理 事务所(普通 合伙) 11557 专利代理师 史立状 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) (54)发明名称 文本样本扩充方法、 装置、 电子设备和计算 机可读介质 (57)摘要 本公开的实施例公开了文本样 本扩充方法、 装置、 电子设备和计算机可读介质。 该方法的一 具体实施方式包括: 将初始文本样 本集中对应的 文本标签为目标文本标签的初始文本样本确定 为待扩充文本样本, 得到待扩充文本样本集; 对 于待扩充文本样本集中的每个待扩充文本样本, 执行以下扩充步骤: 根据目标扩充词性信息, 确 定待扩充文本样本包括的遮挡词; 根据待扩充文 本样本包括的遮挡词, 生成至少一个替换词; 根 据待扩充文本样本和至少一个替换词中的每个 替换词, 生成扩充文本样本, 得到扩充文本样本 集合; 将初始文本样本集和所得到的扩充文本样 本集合组合为文本样本集。 该实施方式与大数据 有关, 在缓解过拟合问题或欠拟合问题的同时缓 解了数据不平衡问题。 权利要求书2页 说明书12页 附图4页 CN 115422326 A 2022.12.02 CN 115422326 A 1.一种文本样本扩充方法, 包括: 将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充 文本样本, 得到待扩充 文本样本集, 其中, 所述目标文本标签满足预设少数类条件; 对于所述待扩充 文本样本集中的每 个待扩充 文本样本, 执 行以下扩充步骤: 根据目标扩充词性信息, 确定所述待扩充 文本样本包括的遮挡词; 根据所述待扩充 文本样本包括的遮挡词, 生成至少一个替换词; 根据所述待扩充文本样本和所述至少一个替换词中的每个替换词, 生成扩充文本样 本, 得到扩充 文本样本集 合; 将所述初始文本样本集和所 得到的扩充 文本样本集 合组合为文本样本集。 2.根据权利要求1所述的方法, 其中, 所述根据所述待扩充文本样本包括的遮挡词, 生 成至少一个替换词, 包括: 根据所述待扩充 文本样本包括的遮挡词, 生成遮挡待扩充 文本样本; 将对应所述遮挡 待扩充文本样本的各个词语的文本编码集合、 文本位置标识集合和词 语标签集 合输入至预设同类词语生成模型, 得到 至少一个替换词。 3.根据权利要求2所述的方法, 其中, 所述根据所述待扩充文本样本和所述至少一个替 换词中的每 个替换词, 生成扩充 文本样本, 得到扩充 文本样本集 合, 包括: 对所述待扩充文本样本包括的各个遮挡词对应的替换词进行排列组合, 得到替换词组 集, 其中, 所述待扩充文本样本包括的每个遮挡词对应的至少一个替换词的数量为预设替 换词数量; 对于所述替换词组集中的每个替换词组, 将所述待扩充文本样本包括的各个遮挡词分 别替换为所述 替换词组中的各个替换词, 得到替换文本样本 。 4.根据权利要求3所述的方法, 其中, 所述至少一个替换词中的每个替换词对应有替换 词标签; 以及 所述根据 所述待扩充文本样本和所述至少一个替换词中的每个替换词, 生成扩充文本 样本, 得到扩充 文本样本集 合, 还包括: 对于所得到的替换文本样本中的每个替换文本样本, 根据 所述替换文本样本中各个替 换词对应的替换词标签, 生成替换文本样本标签; 根据所生成的替换文本样本标签, 对所得到的替换文本样本进行排序, 得到替换文本 样本序列; 从所述替换文本样本序列中选择预设数量的替换文本样本作为扩充文本样本, 得到扩 充文本样本集 合。 5.根据权利要求4所述的方法, 其中, 在所述根据 所述待扩充文本样本和所述至少一个 替换词中的每个替换词, 生 成扩充文本样本, 得到扩充文本样本集合之后, 所述扩充步骤还 包括: 根据所述扩充 文本样本集 合和所述待扩充 文本样本, 生成样本文本分类结果; 响应于所述样本文本分类结果与 所述目标文本标签不一致, 删除所述扩充文本样本集 合。 6.根据权利要求1所述的方法, 其中, 所述方法还 包括: 根据所述文本样本集对初始文本分类模型进行训练, 得到训练完成的初始文本分类模权 利 要 求 书 1/2 页 2 CN 115422326 A 2型作为文本分类模型。 7.根据权利要求1所述的方法, 其中, 所述根据目标扩充词性信息, 确定所述待扩充文 本样本包括的遮挡词, 包括: 根据目标扩充词性信息, 确定所述待扩充 文本样本包括的目标词, 得到目标词集 合; 根据预设遮挡词比例和所述目标词集 合, 确定遮挡数量; 从所述目标词集 合中选择 所述遮挡数量的目标词分别作为遮挡词。 8.一种文本样本扩充装置, 包括: 确定单元, 被配置成将初始文本样本集中对应的文本标签为目标文本标签的初始文本 样本确定为待扩充文本样本, 得到待扩充文本样本集, 其中, 所述目标文本标签满足预设少 数类条件; 扩充单元, 被配置成对于所述待扩充文本样本集中的每个待扩充文本样本, 执行以下 扩充步骤: 根据目标扩充词性信息, 确定所述待扩充文本样本包括的遮挡词; 根据所述待扩 充文本样本包括的遮挡词, 生成至少一个替换词; 根据所述待扩充文本样本和所述至少一 个替换词中的每 个替换词, 生成扩充 文本样本, 得到扩充 文本样本集 合; 组合单元, 被配置成将所述初始文本样本集和所得到的扩充文本样本集合组合为文本 样本集。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑7中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实 现如权利要求1 ‑7中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115422326 A 3
专利 文本样本扩充方法、装置、电子设备和计算机可读介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:15:28
上传分享
举报
下载
原文档
(686.3 KB)
分享
友情链接
T-CSFSIM 001—2022 复杂产品协同设计集成建模语言X语言架构.pdf
上海市网络安全事件应急预案 2019.pdf
GB-T 20042.3-2022 质子交换膜燃料电池 第3部分:质子交换膜测试方法.pdf
BB-T 0083-2021 食品包装容器用聚乙烯发泡垫片.pdf
DB-T 64-2016 强震动观测技术规程.pdf
GB-T 39137-2020 难熔金属单晶晶向测定方法.pdf
GB-T 34690.2-2017 印刷技术 胶印数字化过程控制 第2部分:作业环境.pdf
GM-T 0033-2023 时间戳接口规范.pdf
绿盟 关键信息基础设施安全态势感知平台产品白皮书.pdf
NB-T 10533-2021 采煤沉陷区治理技术规范.pdf
SN-T 2952-2011 进出口煤炭检验规程.pdf
T-CADERM 5015—2023 救护直升机院际患者转运规范.pdf
T-CAAMTB 112—2023 智能商用车线控底盘 接口 技术规范.pdf
DB34-T 3704-2020 公路工程路基动态回弹模量现场测试规程 安徽省.pdf
GB-T 11066.1-2008 金化学分析方法 金量的测定 火试金法.pdf
GB-T 22033-2017 信息技术 嵌入式系统术语.pdf
T-CHTS 10045—2021 公路货运车辆超限超载动态监测系统技术要求.pdf
GB-T 3730.1-2022 汽车、挂车及汽车列车的术语和定义 第1部分:类型.pdf
GB-T 2007.2-1987 散装矿产品取样、制样通则 手工制样方法.pdf
GB-T 43709-2024 资产管理信息化 数据质量管理要求.pdf
1
/
3
19
评价文档
赞助2.5元 点击下载(686.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。