专利 一种基于NER的检查报告隐私处理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211163813.3 (22)申请日 2022.09.23 (71)申请人上海触脉数字医疗科技有限公司地址 201100 上海市闵行区兴梅路485号1 1 层 (72)发明人刘杰　黄佳俊　 (74)专利代理机构南京金宁专利代理事务所 (普通合伙) 32479 专利代理师董武洲 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01)G06V 30/10(2022.01) (54)发明名称一种基于NER的检查报告隐私处理方法 (57)摘要本发明公开了一种基于NER的检查报告隐私处理方法，涉及报告单隐私处理技术领域，本发明包括以下步骤，首先用户上传报告单图片；然后识别模块主要用于对报告单图片上的名称实体进行识别，再然后在识别模块内建立NER模型，并训练NER模型；接着利用中文OCR技术，识别用户上传检查报告的报告单图片上的文字，并使用训练好的hanlp分词模型，对识别出来的文字进行分词，接着使用训练好的NER模型，对分词结果进行实体提取，返回实体所在图片上面的位置信息，以Box形状描绘出分词实体四顶点坐标，接着对隐私进行脱敏化；最后输出隐私脱敏后的报告单图片。本发明为一种基于NER的检查报告隐私处理方法，有效保护患者上传检查报告单图片时出现信息泄露。权利要求书1页说明书4页附图2页 CN 115525925 A 2022.12.27 CN 115525925 A 1.一种基于NER的检查报告隐私处理方法，其特征在于：包括以下步骤： S1：用户通过用户端口上传检查报告的报告单图片； S2：设立识别模块，识别模块主要用于对报告单图片上的名称实体进行识别，得到报告单上名称实体信息； S201：所述识别模块内建立 NER模型，并训练NER模型； S202：在训练NER模型过程中对于序列标注任务的处理方式是将名称实体中的身份认证令牌从离散one‑hot独热码表示映射到低维空间中成为稠密的embed ding中； S203：将名称实体的embed ding序列输入到RN N中，用神经网络自动提取特征； S204：使用Softmax回归来预测每个身份认证令牌的标签，完成NER模型的构造以及训练； S3：利用中文OCR技术，识别用户上传检查报告的报告单图片上的文字，并使用训练好的hanlp分词模型，对识别出来的文字进行分词，实现完成姓名、登记号、住院号以及病号识别以及分词； S4：使用训练好的NER模型，对分词结果进行实体提取，返回实体所在图片上面的位置信息，以Box形状描绘出分词实体四顶点坐标； S5：根据报告单图片上的Box坐标位置，利用图像处理技术，对Box范围的内容进行模糊处理，从而对隐私实体内容进行屏蔽处理，实现隐私脱敏化； S6：输出隐私脱敏后的报告单图片。 2.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：所述 Embedding是用低维向量对物体进行编码，在传统机器学习模型构建过程中，使用one ‑hot 独热码encodi ng对离散特征，特别是id类特征进行编码。 3.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：步骤 S204中所述Softmax回归是将输入特征与权重做线性叠加，其输出层作为全连接层，所述 Softmax回归的输出值个数等于标签中的类别数；将输出值oi当做预测类别i的置信度，为 Softmax回归运算得到离散的预测输出，并将值最大的输出所对应的类别作为预测输出。 4.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：步骤S2 中NER为命名实体识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词。 5.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：步骤S3 中所述OCR技术为光学字符识别，是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，实现供文字处理软件进一步编辑加工。 6.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：步骤S3 中hanlp分词模型是由模型预算法组成的工具包，结合深度神经网络的分布式自然语言处理，提供词法分析、句法分析、文本分析和情感分析功能。 7.根据权利要求1所述的一种基于NER的检查报告隐私处理方法，其特征在于：会诊医师通过医师端口获取步骤S 6中输出的隐私脱敏后的报告单图片完成辅助诊疗，并将诊疗结果与脱敏后的报告单图片进行打包，同步返回至用户端口。权　利　要　求　书 1/1 页 2 CN 115525925 A 2一种基于NER的检查报告隐私处理方法技术领域 [0001]本发明涉及报告单隐私处理技术领域，特别涉及一种基于NER的检查报告隐私处理方法。背景技术 [0002]随着互联网医疗的兴起，各种在线问诊和在线咨询应用需要患者提供各种检查报告，以便更好地提供服务，但是，各种检查报告图片内容中有着许多个人敏感的信息，如：姓名、联系电话、地址信息等，虽然各种应用在患者隐私保护上提供了声明，可以从技术手段上对一般明文信息进行脱敏保护，但是无法对患者各种上传图片上的隐私信息进行保护，只有患者本人通过主动打码来干预才能实现个人信息脱敏，为加强个人信息保护提供了法律保障，基于此，我们提出了这样一种从技术方法上对多媒体图片信息上的隐私进行去隐私化处理。发明内容 [0003]本发明的主要目的在于提供一种基于NER的检查报告隐私处理方法，可以有效解决背景技术中的现有的互联网医疗中患者上传检查报告单时需要手动打码防止个人信息泄露，较为繁琐。 [0004]为实现上述目的，本发明采取的技术方案为：一种基于NE R的检查报告隐私处理方法，包括以下步骤： [0005]S1：用户通过用户端口上传检查报告的报告单图片； [0006]S2：设立识别模块，识别模块主要用于对报告单图片上的名称实体进行识别，得到报告单上名称实体信息； [0007]S201：所述识别模块内建立NER模型，并训练NER模型，在训练NER模型过程中使用《人民日报》语料库进行具体训练，重点标注姓名、联系电话、地址、证件号、亲属关系的实体； [0008]S202：在训练NER模型过程中对于序列标注任务，例如CWS、 POS、 NER的处理方式是将名称实体中的身份认证令牌从离散one ‑hot独热码表示映射到低维空间中成为稠密的 embedding中； [0009]S203：将名称实体的embed ding序列输入到RN N中，用神经网络自动提取特征； [0010]S204：使用Softmax回归来预测每个身份认证令牌的标签，完成NER模型的构造以及训练； [0011]S3：利用中文OCR技术，识别用户上传检查报告的报告单图片上的文字，并使用训练好的hanlp分词模型，对识别出来的文字进行分词，实现完成姓名、登记号、住院号以及病号的信息NER识别； [0012]S4：使用训练好的NER模型，对分词结果进行实体提取，返回实体所在图片上面的位置信息，以Box形状描绘出分词实体四顶点坐标，例如使用训练好的NER模型，对分词结果说　明　书 1/4 页 3 CN 115525925 A 3

专利 一种基于NER的检查报告隐私处理方法

专利一种基于NER的检查报告隐私处理方法