团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211216473.6 (22)申请日 2022.09.30 (71)申请人 武汉科技大 学 地址 430081 湖北省武汉市青山区和平大 道947号 (72)发明人 胡慧君 丁子毅 刘茂福 高峰  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 张辰 (51)Int.Cl. G06F 16/35(2019.01) G06V 30/262(2022.01) G06V 30/10(2022.01) (54)发明名称 一种面向情感数据标注的交叉验证方法、 设 备和存储介质 (57)摘要 本发明提供了一种面向情感数据标注的交 叉验证方法、 设备和存储介质, 方法包括, 获得初 始数据, 将同一份初始数据复制生成多份相同数 据, 并对数据进行切分, 将切分后的数据分发给 标注员进行标注, 将标注好的数据收集后重新进 行整合, 获得多份数据的标注结果; 对标注结果 进行交叉验证, 将标注结果中单个标注数据一致 的放入一个文件, 不一致的则放入另外一个文 件; 将不一致的标注数据结果重新进行切分并分 发给标注员重新进行标注, 对重新标注的结果再 进行交叉验证。 本发明通过对 标注员的标注结果 进行多次重复的交叉验证, 以此来提高数据标注 的准确度和可用性; 数据的标注和验证都可以内 部进行, 提高了数据处理的效率, 降低了对数据 标注验证的成本 。 权利要求书2页 说明书6页 附图2页 CN 115495581 A 2022.12.20 CN 115495581 A 1.一种面向情感数据标注的交叉验证方法, 其特 征在于: 包括以下步骤, 步骤1.获得初始数据, 将同一份初始数据切分后分发给多个标注员进行标注; 其中, 初 始数据包括图片和文字描述; 步骤2.将标注结果收回进行整合, 得到一份数据的多份不同标注结果, 对所述多份不 同标注结果进行交叉验证; 步骤3.对标注结果中验证通过的单个标注数据一致的放入一个文件, 命名为已通过文 件, 不一致的则放回至另外一个文件, 命名为 放回文件; 步骤4.对放回文件进行再切分, 重新分发给标注员再次标注和进行判断, 直到得到所 有通过文件, 将所有通过文件进行整合得到最终的数据文件, 然后对最终的数据文件进行 文本情感线索的判断选取; 步骤5.对最终的数据文件中的每条 数据的文本情感线索进行计算; 步骤6.根据计算的分数, 选取得分最高的文本情感线索, 将得到的文本和图片数据拼 接作为最后完整的标注数据结果。 2.根据权利要求1所述的方法, 其特征在于: 所述将同一份初始数据切分后分发给多个 标注员进行 标注包括以下步骤, 获得初始数据, 将数据复制成多份相同数据; 对每份数据进行切分, 且每 份数据的切分大小, 比例需要相同; 将切分后的多份数据分发给多个标注员进行 标注。 3.根据权利要求1所述的方法, 其特征在于: 所述将标注结果收回进行整合, 得到一份 数据的多份不同标注结果包括, 将标注员标注的小份标注数据 结果收回后进行拼接整合, 重新得到多份相同的具有不 同标注结果的大份数据, 对这多份不同的标注结果的大份数据进行交叉验证。 4.根据权利要求1所述的方法, 其特征在于: 对所述多份不同的标注结果进行交叉验证 包括: 对数据的有效性进行判断, 在数据有效之后, 再依次对数据进行图文情感、 图片以及 图片辅助情感的判断。 5.根据权利要求 4所述的方法, 其特 征在于: 所述对数据的有效性进行判断包括, 判断图文是否有效, 若无效, 则将数据直接放入无效文件, 并进行下一条数据判断, 若 图文有效, 则继续后续 步骤。 6.根据权利要求4所述的方法, 其特征在于: 对数据的图文情感判断包括, 对多份数据 的图文情感进行比较, 根据数据的相似比对的比例判断是否表示数据通过, 若多数数据的 判断情况一 致, 则表示标注通过, 否则表示验证未通过, 则将数据放入不 一致的文件中。 7.根据权利要求4所述的方法, 其特征在于: 对数据中的图片的判断具体包括, 对图片 进行文字提取判断, 若多 数数据表示需要做文字提取, 而少数数据 表示不需要做文字提取, 则表示数据通过, 否则, 表示验证不 通过, 则需要放回进行重新标注。 8.根据权利要求1所述的方法, 其特征在于: 所述对最终的数据文件中的每条数据的文 本情感线索进行计算包括, 利用ROUGE ‑L算法和BLEU算法对选取文件中的每条数据的文本 情感线索进行计算; 其中, 所述ROUGE ‑L算法的计算公式为, 权 利 要 求 书 1/2 页 2 CN 115495581 A 2式中, LCS(X, Y)是X和Y 的最长公共子序列的长度, m和n分别表示人工标准摘要和机器 自动摘要的长度, Rlcs, Plcs分别表示召回率和准确率, β 表示为一个超参数, Flcs即是ROUGE ‑ L。 9.一种电子设备, 其特征在于: 包括存储器、 处理器, 所述处理器用于执行存储器中存 储的计算机程序时实现如权利要求 1‑8任一项所述的一种面向情感数据标注的交叉验证方 法的步骤。 10.一种计算机可读存储介质, 其特征在于: 其上存储有计算机程序, 所述计算机程序 被处理器执行时实现如权利要求 1‑8任一项所述的一种面向情感数据标注的交叉验证方法 的步骤。权 利 要 求 书 2/2 页 3 CN 115495581 A 3

.PDF文档 专利 一种面向情感数据标注的交叉验证方法、设备和存储介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向情感数据标注的交叉验证方法、设备和存储介质 第 1 页 专利 一种面向情感数据标注的交叉验证方法、设备和存储介质 第 2 页 专利 一种面向情感数据标注的交叉验证方法、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:13:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。