团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211163813.3 (22)申请日 2022.09.23 (71)申请人 上海触脉 数字医疗科技有限公司 地址 201100 上海市闵行区兴梅路485号1 1 层 (72)发明人 刘杰 黄佳俊  (74)专利代理 机构 南京金宁专利代理事务所 (普通合伙) 32479 专利代理师 董武洲 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01)G06V 30/10(2022.01) (54)发明名称 一种基于NER的检查报告隐私处 理方法 (57)摘要 本发明公开了一种基于NER的检查报告隐私 处理方法, 涉及报告单隐私处理技术领域, 本发 明包括以下步骤, 首先用户上传报告单图片; 然 后识别模块主要用于对报告单图片上的名 称实 体进行识别, 再然后 在识别模 块内建立NER模型, 并训练NER模型; 接着利用中文OCR技术, 识别用 户上传检查报告的报告单图片上的文字, 并使用 训练好的hanlp分词模型, 对识别出来的文字进 行分词, 接着使用训练好的NER模型, 对分词结果 进行实体提取, 返回实体所在图片上面的位置信 息, 以Box形状描绘出分词实体四顶点坐标, 接着 对隐私进行脱敏化; 最后输出隐私脱敏后的报告 单图片。 本发明为一种基于NER的检查报告隐私 处理方法, 有效保护患者上传检查报告单图片时 出现信息泄 露。 权利要求书1页 说明书4页 附图2页 CN 115525925 A 2022.12.27 CN 115525925 A 1.一种基于NER的检查报告隐私处 理方法, 其特 征在于: 包括以下步骤: S1: 用户通过用户端口上传检查报告的报告单图片; S2: 设立识别模块, 识别 模块主要用于对报告单图片上的名称实体进行识别, 得到报告 单上名称实体信息; S201: 所述识别模块内建立 NER模型, 并训练NER模型; S202: 在训练NER模型过程中对于序列标注任务的处理方式是将名称实体中的身份认 证令牌从离 散one‑hot独热码表示映射到低维空间中成为稠密的embed ding中; S203: 将名称实体的embed ding序列输入到RN N中, 用神经网络自动提取 特征; S204: 使用Softmax回归来预测每个身份认证令牌的标签, 完成NER模型的构造以及训 练; S3: 利用中文OCR技术, 识别用户上传检查报告 的报告单图片上的文字, 并使用训练好 的hanlp分词模型, 对识别出来的文字进 行分词, 实现完成姓名、 登记号、 住院号以及病号识 别以及分词; S4: 使用训练好的NER模型, 对分词结果进行实体提取, 返回实体所在图片上面的位置 信息, 以Box形状描绘出分词实体四顶点 坐标; S5: 根据报告单图片上的Box坐标位置, 利用图像处理技术, 对Box范围的内容进行模糊 处理, 从而对隐私实体内容进行屏蔽处 理, 实现隐私脱敏化; S6: 输出隐私脱敏后的报告单图片。 2.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 所述 Embedding是用低维向量对物体进行编码, 在传统机器学习模型构建过程中, 使用one ‑hot 独热码encodi ng对离散特征, 特别是id类特 征进行编码。 3.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 步骤 S204中所述Softmax回归是将输入特征与权重做线性叠加, 其输出层作为全连接层, 所述 Softmax回归的输出值个数等于标签中的类别数; 将输出值oi当做预测类别i的置信度, 为 Softmax回归运 算得到离散的预测输出, 并将值 最大的输出 所对应的类别作为预测输出。 4.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 步骤S2 中NER为命名实体识别, 是指识别文本中具有特定意义的实体, 主要包括人名、 地名、 机构 名、 专有名词。 5.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 步骤S3 中所述OCR技术为光学字符识别, 是指电子设备检查纸上打印的字符, 通过检测暗、 亮的模 式确定其形状, 然后用字 符识别方法将形状翻译成计算机文字的过程, 即针对印刷体字符, 采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件, 并通过识别软件将图 像中的文字转换成文本格式, 实现供文字处 理软件进一 步编辑加工 。 6.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 步骤S3 中hanlp分词模型是由模型预算法组成的工具包, 结合深度神经网络的分布式自然语言处 理, 提供词法分析、 句法分析、 文本分析和情感分析功能。 7.根据权利要求1所述的一种基于NER的检查报告隐私处理方法, 其特征在于: 会诊医 师通过医师端口获取步骤S 6中输出的 隐私脱敏后的报告单图片完成辅助诊疗, 并将诊疗结 果与脱敏后的报告单图片进行打包, 同步返回至用户端口。权 利 要 求 书 1/1 页 2 CN 115525925 A 2一种基于NER的检查报 告隐私处理 方法 技术领域 [0001]本发明涉及报告单隐私处理技术领域, 特别涉及一种基于NER的检查报告隐私处 理方法。 背景技术 [0002]随着互联 网医疗的兴起, 各种在线问诊和在线咨询应用需要患者提供各种检查报 告, 以便更好地提供服务, 但是, 各种检查报告图片内容中有着许多个人敏感的信息, 如: 姓 名、 联系电话、 地址信息等, 虽然各种应用在患者隐私保护上提供了声明, 可以从技术手段 上对一般明文信息进行脱敏保护, 但是无法对患者各种 上传图片上 的隐私信息进行保护, 只有患者本人通过主动打码来干预才能实现个人信息脱敏, 为加强个人信息保护提供了法 律保障, 基于此, 我们提出了这样一种从技术方法上对多媒体图片信息上 的隐私进行去隐 私化处理。 发明内容 [0003]本发明的主要目的在于提供一种基于NER的检查报告隐私处理方法, 可以有效解 决背景技术中的现有的互联网医疗中患者上传检查报告单时需要手动打码防止个人信息 泄露, 较为繁琐。 [0004]为实现上述目的, 本发明采取的技术方案为: 一种基于NE R的检查报告隐私处理方 法, 包括以下步骤: [0005]S1: 用户通过用户端口上传检查报告的报告单图片; [0006]S2: 设立识别模块, 识别模块主要用于对报告单图片上的名称实体进行识别, 得到 报告单上名称实体信息; [0007]S201: 所述识别模块内建立NER模型, 并训练NER模型, 在训练NER模型过程中使用 《人民日报》 语料库进行具体训练, 重点标注姓名、 联系电话、 地址、 证件号、 亲属关系的实 体; [0008]S202: 在训练NER模型过程中对于序列标注任务, 例如CWS、 POS、 NER的处理方式是 将名称实体中的身份认证令牌从离散one ‑hot独热码表示映射到低维空间中成为稠密 的 embedding中; [0009]S203: 将名称实体的embed ding序列输入到RN N中, 用神经网络自动提取 特征; [0010]S204: 使用Softmax回归来预测每个身份认证令牌的标签, 完成NER模型 的构造以 及训练; [0011]S3: 利用中文OCR技术, 识别用户上传检查报告的报告单图片上的文字, 并使用训 练好的hanlp分词模 型, 对识别出来的文字进 行分词, 实现完成姓名、 登记 号、 住院号以及病 号的信息NER识别; [0012]S4: 使用训练好的NER模型, 对分词结果进行实体提取, 返回实体所在图片上面的 位置信息, 以Box形状描绘出分词实体四顶 点坐标, 例如使用训练好的NER模 型, 对分词结果说 明 书 1/4 页 3 CN 115525925 A 3

.PDF文档 专利 一种基于NER的检查报告隐私处理方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NER的检查报告隐私处理方法 第 1 页 专利 一种基于NER的检查报告隐私处理方法 第 2 页 专利 一种基于NER的检查报告隐私处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:10:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。