(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211286677.7
(22)申请日 2022.10.20
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310023 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
申请人 杭州市卫 生健康事业发展中心
(72)发明人 沈伟富 贺勇 张顺 曾震宇
李兆融 叶旭辉
(74)专利代理 机构 北京太合九思知识产权代理
有限公司 1 1610
专利代理师 邓春燕
(51)Int.Cl.
G16H 70/40(2018.01)
G06K 9/62(2022.01)
G06F 40/289(2020.01)G06F 16/31(2019.01)
G06F 16/35(2019.01)
(54)发明名称
一种药品归集方法、 设备及存 储介质
(57)摘要
本申请实施例提供一种药品归集方法、 设备
及存储介质。 在本申请实施例中, 可获取第一类
型的药品的药品记录; 根据从各药品记录中识别
到的名称信息和剂型信息, 计算各药品记录之间
的相似度; 基于相似度, 对各药品记录进行聚类,
以获得多个药品聚类集合; 分别为多个药品 聚类
集合生成对应的标准记录, 以组成针对第一类型
的药品的标准库。 这样, 可 以收集到的第一类型
的药品的药品记录为基础, 实现第一类型的药品
的标准记录从无到有。 在此基础上, 还可根据针
对第一类型的药品的标准库和现有的针对第二
类型的药品的标准库, 得到药品标准库, 从而可
实现药品标准库的自动化扩充, 提高药品标准库
的全面性, 为药品归一 化提供更完善的依据。
权利要求书3页 说明书16页 附图5页
CN 115359925 A
2022.11.18
CN 115359925 A
1.一种药品归集方法, 包括:
获取至少一条 药品记录, 所述药品记录为对应于第一类型的药品的;
根据从各所述药品记录 中识别到的名称信 息和剂型信 息, 计算各所述药品记录之间的
相似度;
基于所述相似度, 对各 所述药品记录进行聚类, 以获得多个药品聚类集 合;
分别为所述多个药品聚类集合生成对应的标准记录, 以组成针对第 一类型的药品的标
准库;
根据所述针对第 一类型的药品的标准库与针对第 二类型的药品的标准库, 得到药品标
准库。
2.根据权利要求1所述的方法, 所述根据从各所述药品记录中识别到的名称信息和剂
型信息, 计算各 所述药品记录之间的相似度, 包括:
根据从各所述药品记录中识别到的名称信息, 确定至少一个药品记录对, 所述药品记
录对中包括的两条待处 理药品记录的名称信息之间存在相同字段;
对各所述药品记录对中的待处 理药品记录, 分别计算相似度。
3.根据权利要求2所述的方法, 所述根据从各所述药品记录 中识别到的名称信 息, 确定
至少一个药品记录对, 包括:
对各所述药品记录 中识别到的名称信 息分别进行分词处理, 得到各所述药品记录各自
对应的分词结果;
若第一药品记录和第二药品记录各自对应的分词结果中, 存在重合的分词结果, 则将
所述第一药品记录和第二药品记录确定为 一个药品记录对。
4.根据权利要求2所述的方法, 所述根据从各所述药品记录 中识别到的名称信 息, 确定
至少一个药品记录对, 包括:
对各所述药品记录 中识别到的名称信 息分别进行连续双字符拆分, 得到各所述药品记
录各自对应的连续双字符集 合;
若第三药品记录和第四药品记录各自对应的连续双字符集合中, 存在重合的连续双字
符, 则将所述第三药品记录和第四药品记录确定为 一个药品记录对。
5.根据权利要求1所述的方法, 所述根据从药品记录 中识别到的名称信 息和剂型信 息,
计算药品记录之间的相似度, 包括:
若从两条药品记录 中识别到的剂型信 息一致, 则根据从所述两条药品记录 中分别识别
到名称信息, 计算所述两条 药品记录之间的名称相似度;
根据所述名称相似度, 确定所述两条 药品记录之间的相似度。
6.根据权利要求5所述的方法, 所述根据从所述两条药品记录 中分别识别到名称信 息,
计算所述两条 药品记录之间的名称相似度, 包括:
计算所述两条 药品记录对应的名称信息之间的第一相似度;
将所述两条药品记录对应的名称信息之间的重合字符个数与所述两条药品记录的字
符数量和值之间的比值, 作为第二相似度;
根据所述第一相似度和/或所述第二相似度, 确定所述两条药品记录之间的名称相似
度。
7.根据权利要求6所述的方法, 还 包括:权 利 要 求 书 1/3 页
2
CN 115359925 A
2若所述第一相似度不小于第一阈值, 则确定所述名称相似度有效; 或者,
若所述第二相似度不小于第二阈值, 则确定所述名称相似度有效; 或者,
若所述第一相似度和所述第二相似度中的任意一个不小于第三阈值且所述两条药品
记录之间存在子字符串关系和子序列关系中的任意一种关系, 则确定所述名称相似度有
效;
其中, 若所述两条药品记录之间存在重合的连续字符串, 则确定所述两条药品记录之
间存在子字符串关系; 若从所述两条药品记录中的其中一条药品记录中删除部 分字符后获
得另一条 药品记录, 则确定所述两条 药品记录之间存成子序列关系。
8.根据权利要求5所述的方法, 还 包括:
基于预置的剂型信 息与剂型类型之间的映射关系, 检测从所述两条药品记录中识别 到
的剂型信息各自所属的剂型类型;
若为所述两条药品记录检测出的剂型类型一致, 则确定从两条药品记录 中识别到的剂
型信息一 致。
9.根据权利要求5所述的方法, 所述根据所述名称相似度, 确定所述两条药品记录之间
的相似度, 包括:
根据从所述两条药品记录 中识别到的规格信 息, 计算所述两条药品记录之间的规格相
似度;
根据所述两条药品记录之间的名称相似度和规格相似度, 计算所述两条药品记录之间
的相似度。
10.根据权利要求9所述的方法, 所述根据从所述两条药品记录中识别到的规格信息,
计算所述两条 药品记录之间的规格相似度, 包括:
按照剂型类型与规格标准之间的关联关系, 将 从所述两条药品记录 中识别到的规格信
息, 按照所述两条药品记录各自的剂型类型对应的规格标准进行单位转换, 以获得所述两
条药品记录各自对应的标准 规格数据;
基于所述两条药品记录各自对应的标准规格数据, 计算所述两条药品记录之间的规格
相似度。
11.根据权利要求1所述的方法, 所述基于相似度, 对所述药品记录进行聚类, 以获得多
个药品聚类集 合, 包括:
在相似度满足预设要求的两个药品记录之间建立关联的边, 以构建起药品记录关联
图, 所述药品记录关联图中包 含多个非连通的子图, 单个子图对应一个药品聚类集 合。
12.根据权利要求1所述的方法, 所述分别为所述多个药品聚类集合生成对应的标准记
录, 以组成针对第一类型的药品的标准库, 包括:
按照所述药品标准库中所需的字段, 分别对目标药品聚类集合中包含的各条药品记录
执行字段提取, 以获得 所述目标 药品聚类集 合中各条药品记录对应的标准记录;
从所述目标 药品聚类集 合下的各 条标准记录中选取主记录;
将所述目标 药品聚类集 合下的其它标准记录作为所述主记录关联的从属记录;
将所述主记录及所述从属 记录作为一项标准记录, 添加至所述第 一类型的药品的标准
库中;
其中, 所述目标 药品聚类集 合为所述多个药品聚类集 合中的任意 一个。权 利 要 求 书 2/3 页
3
CN 115359925 A
3
专利 一种药品归集方法、设备及存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:12:58上传分享