团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211085532.0 (22)申请日 2022.09.06 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 熊奕洋 董石磊 张学智 李凯  谭华  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 李建忠 (51)Int.Cl. G16H 10/60(2018.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 电子病历分类方法、 装置、 电子设备及存储 介质 (57)摘要 本公开提供了一种电子病历分类方法、 装 置、 电子设备及存储介质, 涉及计算机技术领域。 该方法包括: 获取待输入到神经网络模型的电子 病历文本信息; 确定电子病历文本信息中各个句 子所包括的目标实体词, 任一句子中包括至少一 个目标实体词; 计算各个句子对应的IV值, IV值 用于描述对应的句子与目标疾病的相关程度; 根 据电子病历文本信息与各个句子对应的IV值, 生 成词袋特征向量; 将词袋特征向量输入到神经网 络模型的softmax层, 得到电子病历文本信息的 分类结果。 本公开通过采用各个句子对应的IV 值, 来生成词袋特征向量, 并通过该词袋特征向 量来确定电子病历文本信息的分类结果, 可以提 高该分类结果的可靠性与准确性。 权利要求书2页 说明书13页 附图4页 CN 115359867 A 2022.11.18 CN 115359867 A 1.一种电子病历分类方法, 其特 征在于, 包括: 获取待输入到神经网络模型的 电子病历文本信息, 其中, 所述神经网络模型用于对所 述电子病历文本信息进行分类, 所述神经网络模型包括softmax层; 确定所述电子病历文本信 息中各个句子所包括的目标实体词, 任一句子 中包括至少一 个目标实体词, 每 个目标实体词包 含至少一个字; 计算各个句子对应的信息价值IV值, 任一句子对应的IV值用于描述对应的句子与目标 疾病的相关程度; 根据所述电子病历文本信 息与各个句子对应的IV值, 生成所述电子病历文本信 息对应 的词袋特 征向量; 将所述电子病历文本信息对应的词袋特征向量输入到所述神经网络模型的softmax 层, 得到所述电子病历文本信息的分类结果。 2.根据权利要求1所述的电子病历分类方法, 其特 征在于, 所述方法还 包括: 获取各个目标实体词对应的缺失率, 所述缺失率用于描述对应的目标实体词在相关医 学场景中的出现频次; 所述根据所述电子病历文本信息与各个句子对应的IV值, 生成所述电子病历文本信 息 对应的词袋特 征向量, 包括: 根据所述电子病历文本信息与各个目标实体词对应的缺失率, 生成至少一个句向量, 任一句向量对应所述电子病历文本信息中的一个句子; 根据至少一个句向量与各个句子对应的IV值, 生成所述电子病历文本信息对应的词袋 特征向量。 3.根据权利要求2所述的电子病历分类方法, 其特征在于, 所述根据所述电子病历文本 信息与各个目标实体词对应的缺失率, 生成至少一个句向量, 包括: 通过霍夫曼编码的方法对所述电子病历文本信 息中包含的每个字进行转换, 得到每个 字对应的霍夫 曼编码词向量; 将每个目标实体词对应的缺失率添加至相应字的霍夫曼编码词向量中, 得到每个目标 实体词中各个字对应的词嵌入向量; 对每个句子中各个字对应的词嵌入向量进行卷积、 池化与拼接处理, 得到每个句子对 应的句向量。 4.根据权利要求2或3任一所述的电子病历分类方法, 其特 征在于, 所述方法还 包括: 标注所述电子病历文本信息中各个句子所包括的目标实体词的位置; 根据标注的各个目标实体词的位置, 得到各个目标实体词的位置编码信息; 所述根据 所述电子病历文本信 息与各个目标实体词对应的缺失率, 生成至少一个句向 量, 包括: 根据所述电子病历文本信 息、 各个目标实体词对应的缺失率以及各个目标实体词的位 置编码信息, 生成至少一个句向量。 5.根据权利要求3所述的电子病历分类方法, 其特征在于, 对每个句子对应的各个词嵌 入向量进行如下的卷积、 池化与拼接处 理, 得到每 个句子对应的句向量: 对目标句子对应的各个词嵌入向量进行卷积核为3的卷积并进行池化, 得到第一池化 结果, 所述目标句子为电子病历文本信息中的任一句子;权 利 要 求 书 1/2 页 2 CN 115359867 A 2对所述目标句子对应的各个词嵌入向量进行卷积核为4的卷积并进行池化, 得到第二 池化结果; 对所述目标句子对应的各个词嵌入向量进行卷积核为5的卷积并进行池化, 得到第三 池化结果; 对所述第一池化结果、 所述第二池化结果与所述第三池化结果进行拼接处理, 得到所 述目标句子对应的句向量。 6.根据权利要求1至3任一所述的 电子病历分类方法, 其特征在于, 所述计算各个句子 对应的信息价 值IV值, 包括: 采用随机森林算法, 计算各个句子对应的IV值。 7.根据权利要求1至3任一所述的 电子病历分类方法, 其特征在于, 当需要对所述电子 病历是否属于糖尿病病历进行分类时, 所述 目标实体词可以包括年龄、 体重、 收缩压、 胰岛 素抵抗指数。 8.一种电子病历分类装置, 其特 征在于, 包括: 电子病历获取模块, 用于获取待输入到神经网络模型的电子病历文本信息, 其中, 所述 神经网络模型用于对所述电子病历文本信息进行分类, 所述神经网络模型包括softmax层; 目标实体词确定模块, 用于确定所述电子病历文本信 息中各个句子所包括的目标实体 词, 任一句子中包括至少一个目标实体词, 每 个目标实体词包 含至少一个字; IV值计算模块, 用于计算各个句子对应的信息价值IV值, 任一句子对应的IV值用于描 述对应的句子与目标疾病的相关程度; 词袋特征向量生成模块, 用于根据所述电子病历文本信息与各个句子对应的IV值, 生 成所述电子病历文本信息对应的词袋特 征向量; 分类结果确定模块, 用于将所述电子病历文本信 息对应的词袋特征向量输入到所述神 经网络模型的softmax层, 得到所述电子病历文本信息的分类结果。 9.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所 述电子病历分类方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1~7中任意 一项所述的电子病历分类方法。权 利 要 求 书 2/2 页 3 CN 115359867 A 3

.PDF文档 专利 电子病历分类方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 电子病历分类方法、装置、电子设备及存储介质 第 1 页 专利 电子病历分类方法、装置、电子设备及存储介质 第 2 页 专利 电子病历分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。