团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211216473.6 (22)申请日 2022.09.30 (71)申请人 武汉科技大 学 地址 430081 湖北省武汉市青山区和平大 道947号 (72)发明人 胡慧君 丁子毅 刘茂福 高峰 (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 张辰 (51)Int.Cl. G06F 16/35(2019.01) G06V 30/262(2022.01) G06V 30/10(2022.01) (54)发明名称 一种面向情感数据标注的交叉验证方法、 设 备和存储介质 (57)摘要 本发明提供了一种面向情感数据标注的交 叉验证方法、 设备和存储介质, 方法包括, 获得初 始数据, 将同一份初始数据复制生成多份相同数 据, 并对数据进行切分, 将切分后的数据分发给 标注员进行标注, 将标注好的数据收集后重新进 行整合, 获得多份数据的标注结果; 对标注结果 进行交叉验证, 将标注结果中单个标注数据一致 的放入一个文件, 不一致的则放入另外一个文 件; 将不一致的标注数据结果重新进行切分并分 发给标注员重新进行标注, 对重新标注的结果再 进行交叉验证。 本发明通过对 标注员的标注结果 进行多次重复的交叉验证, 以此来提高数据标注 的准确度和可用性; 数据的标注和验证都可以内 部进行, 提高了数据处理的效率, 降低了对数据 标注验证的成本 。 权利要求书2页 说明书6页 附图2页 CN 115495581 A 2022.12.20 CN 115495581 A 1.一种面向情感数据标注的交叉验证方法, 其特 征在于: 包括以下步骤, 步骤1.获得初始数据, 将同一份初始数据切分后分发给多个标注员进行标注; 其中, 初 始数据包括图片和文字描述; 步骤2.将标注结果收回进行整合, 得到一份数据的多份不同标注结果, 对所述多份不 同标注结果进行交叉验证; 步骤3.对标注结果中验证通过的单个标注数据一致的放入一个文件, 命名为已通过文 件, 不一致的则放回至另外一个文件, 命名为 放回文件; 步骤4.对放回文件进行再切分, 重新分发给标注员再次标注和进行判断, 直到得到所 有通过文件, 将所有通过文件进行整合得到最终的数据文件, 然后对最终的数据文件进行 文本情感线索的判断选取; 步骤5.对最终的数据文件中的每条 数据的文本情感线索进行计算; 步骤6.根据计算的分数, 选取得分最高的文本情感线索, 将得到的文本和图片数据拼 接作为最后完整的标注数据结果。 2.根据权利要求1所述的方法, 其特征在于: 所述将同一份初始数据切分后分发给多个 标注员进行 标注包括以下步骤, 获得初始数据, 将数据复制成多份相同数据; 对每份数据进行切分, 且每 份数据的切分大小, 比例需要相同; 将切分后的多份数据分发给多个标注员进行 标注。 3.根据权利要求1所述的方法, 其特征在于: 所述将标注结果收回进行整合, 得到一份 数据的多份不同标注结果包括, 将标注员标注的小份标注数据 结果收回后进行拼接整合, 重新得到多份相同的具有不 同标注结果的大份数据, 对这多份不同的标注结果的大份数据进行交叉验证。 4.根据权利要求1所述的方法, 其特征在于: 对所述多份不同的标注结果进行交叉验证 包括: 对数据的有效性进行判断, 在数据有效之后, 再依次对数据进行图文情感、 图片以及 图片辅助情感的判断。 5.根据权利要求 4所述的方法, 其特 征在于: 所述对数据的有效性进行判断包括, 判断图文是否有效, 若无效, 则将数据直接放入无效文件, 并进行下一条数据判断, 若 图文有效, 则继续后续 步骤。 6.根据权利要求4所述的方法, 其特征在于: 对数据的图文情感判断包括, 对多份数据 的图文情感进行比较, 根据数据的相似比对的比例判断是否表示数据通过, 若多数数据的 判断情况一 致, 则表示标注通过, 否则表示验证未通过, 则将数据放入不 一致的文件中。 7.根据权利要求4所述的方法, 其特征在于: 对数据中的图片的判断具体包括, 对图片 进行文字提取判断, 若多 数数据表示需要做文字提取, 而少数数据 表示不需要做文字提取, 则表示数据通过, 否则, 表示验证不 通过, 则需要放回进行重新标注。 8.根据权利要求1所述的方法, 其特征在于: 所述对最终的数据文件中的每条数据的文 本情感线索进行计算包括, 利用ROUGE ‑L算法和BLEU算法对选取文件中的每条数据的文本 情感线索进行计算; 其中, 所述ROUGE ‑L算法的计算公式为, 权 利 要 求 书 1/2 页 2 CN 115495581 A 2式中, LCS(X, Y)是X和Y 的最长公共子序列的长度, m和n分别表示人工标准摘要和机器 自动摘要的长度, Rlcs, Plcs分别表示召回率和准确率, β 表示为一个超参数, Flcs即是ROUGE ‑ L。 9.一种电子设备, 其特征在于: 包括存储器、 处理器, 所述处理器用于执行存储器中存 储的计算机程序时实现如权利要求 1‑8任一项所述的一种面向情感数据标注的交叉验证方 法的步骤。 10.一种计算机可读存储介质, 其特征在于: 其上存储有计算机程序, 所述计算机程序 被处理器执行时实现如权利要求 1‑8任一项所述的一种面向情感数据标注的交叉验证方法 的步骤。权 利 要 求 书 2/2 页 3 CN 115495581 A 3
专利 一种面向情感数据标注的交叉验证方法、设备和存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:13:14
上传分享
举报
下载
原文档
(627.1 KB)
分享
友情链接
360 新一代XDR-面向未来的数字安全防御架构.pdf
GB-T 19713-2005 信息技术 安全技术 公钥基础设施 在线证书状态协议.pdf
GB-T 37972-2019 信息安全技术 云计算服务运行监管框架.pdf
GM-T 0014-2023 数字证书认证系统密码协议规范.pdf
GB-T 20042.3-2022 质子交换膜燃料电池 第3部分:质子交换膜测试方法.pdf
GB-T 42081-2022 志愿服务基础数据元.pdf
DB42-T 1854-2022 咸鸭蛋加工技术规程 湖北省.pdf
阿里 云上数字政府之数据安全建设指南.pdf
GB-T 15310.2-2009 国际贸易出口单证格式 第2部分:装箱单.pdf
GB-T 42706.2-2023 电子元器件 半导体器件长期贮存 第2部分:退化机理.pdf
DB5114-T 4-2019 杂交柑桔爱媛38号生产技术规范 眉山市.pdf
GB-T 23696-2017 证券及相关金融工具 交易所和市场识别码.pdf
GB-T 42926-2023 金融信息系统网络安全风险评估规范.pdf
GB-T 714-2015 桥梁用结构钢.pdf
GB-T 28625-2012 彩色复印机测试版.pdf
DB42-T 1730-2021 破损山体植被修复技术规范 湖北省.pdf
GB-T 41774-2022 法庭科学 爆炸装置鉴定规程.pdf
GB-T 42706.1-2023 电子元器件 半导体器件长期贮存 第1部分:总则.pdf
GB/T 39468-2020 陆地定量遥感产品真实性检验通用方法.pdf
ISO 27001 标准--中英文.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(627.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。