团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211023077.1 (22)申请日 2022.08.25 (71)申请人 厦门市美亚柏科信息股份有限公司 地址 361000 福建省厦门市思明区软件园 二期观日路12号102-402单 元 (72)发明人 彭闯 陈思萌 卢晓喻 赵建强 韩名羲 金辉 (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 专利代理师 郭涵炜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/9536(2019.01) G06F 40/247(2020.01)G06F 40/284(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/00(2012.01) (54)发明名称 基于多模态检索和关键词提取的社交文本 增强方法与系统 (57)摘要 本申请提出了一种基于多模态检索和关键 词提取的社交文本增强方法, 包括: S1、 利用类别 关键词抽取算法提取不同类别样本语句中的关 键词; S2、 采用RNN模型结合自注意力机制的方 式, 利用训练样本训练得到句子的生成模型, 并 根据所述训练样本对应类别的关键词控制所述 生成模型的句子生成方向; S3、 将原始语句输入 到所述生 成模型中, 生成文本增强的第一生成语 句; S4、 基于多模态 检索算法, 判断所述第一生成 语句是否存在所述关键词文件中的关键词, 若 是, 则在所述第一生成语句中找出需要替换的关 键词, 并检索出所述需要替换的关键词的近义词 进行替换, 从而生成多个数据增强的第二生成语 句。 本申请具有能够对生成模型的生成方向、 生 成数量进行控制的效果。 权利要求书2页 说明书9页 附图3页 CN 115408495 A 2022.11.29 CN 115408495 A 1.一种基于多模态检索和关键词提取的社交文本增强方法, 其特征在于, 包括以下步 骤: S1、 利用类别关键词抽取算法提取不同类别样本语句中的关键词, 得到包含不同类别 关键词集 合的关键词文件; S2、 采用RNN模型结合自注意力机制的方式, 利用训练样本训练得到句子的生成模型, 并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生 成方向; S3、 将原始语句输入到所述 生成模型中, 生成文本增强的第一 生成语句; 以及 S4、 基于多模态检索算法, 判断所述第一生成语句是否存在所述关键词文件中的关键 词, 若是, 则在所述第一生 成语句中找出需要替换的关键词, 并检索出所述需要替换的关键 词的近义词进行替换, 从而生成多个数据增强的第二 生成语句。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S1具体包括: S11、 将所述样本语句划分成2字词和3字词, 利用凝固度算法计算每个词语的凝固度, 并对凝固度低于预设阈值的词语再次进行分词操作, 得到最终的词语集 合; S12、 采用信息熵算法和TF ‑IDF算法衡量所述词语集合 中每个词语的有效性, 根据衡量 结果筛选出关键词。 3.根据权利要求1所述的方法, 其特征在于, 所述生成模型顺序包括嵌入层、 双向LSTM 模型、 注意力层和单向LSTM模型, 所述 步骤S2具体包括: S21、 在所述嵌入层对所述训练样本分词后转化为第 一词向量, 在所述训练样本对应类 别的所述关键词集 合中随机 选择关键词并转 化为第二词向量; S22、 利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出; S23、 所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的 降维并分别输出第一输出向量和第二输出向量; S24、 对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量, 所述单向 LSTM模型对所述编码向量进行解码生成句子 。 4.根据权利要求3所述的方法, 其特征在于, 在所述步骤S22中, 所述第 一词向量的最后 一个编码输出和所述第二词向量进行自注意力机制联合编码。 5.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S4具体包括: S41、 利用收集的训练语料进行分词并转化为第三词向量, 采用Skip ‑Gram模型对所述 第三词向量进行训练得到词向量模型; S42、 将所述第一生成语句输入所述词向量模型, 判断并找出所述需要替换的关键词, 根据所述需要替换的关键词在所述词向量模型中找到对应的具体词向量; S43、 通过余弦相似度计算所述具体词向量与其它所述第 三词向量的相似度, 根据计算 结果找出 所述近义词。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤S43具体包括: 根据 所述关键词文 件将所述词向量模型中的所述第三词向量划分成不同类别, 利用哈希函数将不同类别的所 述第三词向量保存到不同位置的哈希地址中, 通过余弦相似度计算所述具体词向量与对应 哈希地址内的所述第三词向量的相似度, 根据计算结果找出 所述近义词。 7.根据权利要求2所述的方法, 其特征在于, 所述步骤S12中所述根据衡量结果筛选出权 利 要 求 书 1/2 页 2 CN 115408495 A 2关键词具体包括: 对所述词语集合中的词语的信息熵值和TF ‑IDF值进行加权求和, 求得所 述词语集 合中的词语的特 征分数, 根据所述特 征分数筛 选出关键词。 8.根据权利要求1所述的方法, 其特征在于, 在所述步骤S4中, 根据第一预设数量, 在所 述第一生成语句包含的所有关键词中, 随机采样出所述第一预设数量的所述需要替换的关 键词, 根据第二预设数量, 生成所述第二预设数量的所述第二 生成语句。 9.一种基于多模态检索和关键词提取的社交文本增强系统, 其特 征在于, 包括: 关键词文件获取模块, 配置用于利用类别关键词抽取算法提取不同类别样本语句中的 关键词, 得到包 含不同类别关键词集 合的关键词文件; 生成模型构建模块, 配置用于采用RNN模型结合自注意力机制的方式, 利用训练样本训 练得到句子的生成模型, 并根据所述训练样本对应类别的所述关键词集合中的关键词控制 所述生成模型的句子生成方向; 文本增强模块, 配置用于将原始语句输入到所述生成模型中, 生成文本增强的第一生 成语句; 数据增强模块, 配置用于基于多模态检索算法, 判断所述第一生成语句是否存在所述 关键词文件中的关键词, 若是, 则 在所述第一生成语句中找出需要替换的关键词, 并检索出 所述需要替换的关键词的近义词进行替换, 从而生成多个数据增强的第二 生成语句。 10.一种计算机可读储存介质, 其储存有计算机程序, 所述计算机程序在被处理器执行 时实施如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115408495 A 3
专利 基于多模态检索和关键词提取的社交文本增强方法与系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:14:11
上传分享
举报
下载
原文档
(847.9 KB)
分享
友情链接
DB13-T 5722-2023 医院感染应对策略与质量控制 河北省.pdf
T-CEC 5074—2022 抽水蓄能电站工程施工总进度编制导则.pdf
GB 37822-2019 挥发性有机物无组织排放控制标准.pdf
GB-T 23724.1-2016 起重机 检查 第1部分:总则.pdf
GB-T 35295-2017信息技术大数据术语.pdf
GB-T 40665.4-2021 中医四诊操作规范 第4部分:切诊.pdf
BPMN2.0标准规范(中文版).pdf
专利 资产暴露面信息获取方法、装置、设备以及存储介质.PDF
DB11-T 2046.1-2022 智慧停车系统技术要求 第1部分:总则 北京市.pdf
GB-T 20491-2017 用于水泥和混凝土中的钢渣粉.pdf
JR-T0124-2014 金融机构编码规范.pdf
GB-T 41265-2022 可穿戴设备的光辐射安全要求.pdf
GB/T 29827-2013 信息安全技术 可信计算规范 可信平台主板功能接口.pdf
GB-T 34079.4-2021 基于云计算的电子政务公共平台服务规范 第4部分:应用服务.pdf
CISSP官方学习指南(OSG)第9版 中文版.pdf
GB-T 17473.6-2008 微电子技术用贵金属浆料测试方法 分辨率测定.pdf
2023数据要素生态研究报告.pdf
GB-T 40211-2021 工业通信网络 网络和系统安全 术语、概念和模型 ISO 62443-1-1-2009.pdf
GB-T 36547-2018 电化学储能系统接入电网技术规定.pdf
T-SDMT 0002—2022 高效节能智能化牵引变压器.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(847.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。