团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211172804.0 (22)申请日 2022.09.26 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214125 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 高璇 单震 李萍  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 潘悦梅 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/16(2019.01) G06F 40/284(2020.01) (54)发明名称 基于聚类算法的案例匹配方法及系统 (57)摘要 本发明公开了基于聚类算法的案例匹配方 法及系统, 属于数据处理技术领域, 要解决的技 术问题为如何对案例案例信息与法律信息进行 匹配。 获取多个案例文本以及多个法律文本, 将 所述多个案例文本以及多个法律文本均存储于 同一个文件夹中; 分别对每个案例文本以及每个 法律文本进行中文分词处理, 得到具有多个词语 的案例文本以及法律文本, 所述词语作为特征 词; 基于所述具有多个特征词的案例文本以及法 律文本、 通过TF ‑IDF权重计算方法构建文本特征 向量; 基于所述特征向量文本为输入, 通过聚类 方法进行案例和法律的特 征匹配。 权利要求书2页 说明书10页 附图2页 CN 115481251 A 2022.12.16 CN 115481251 A 1.一种基于聚类算法的案例匹配方法, 其特征在于, 用于实现案例信息与法律信息的 匹配, 所述方法包括如下步骤: 获取多个案例文本以及多个法律文本, 将所述多个案例文本以及多个法律文本均存储 于同一个文件夹中; 分别对每个案例文本以及每个法律文本进行中文分词处理, 得到具有多个词语的案例 文本以及法律文本, 所述词语作为特 征词; 基于所述具有多个特征词的案例文本以及 法律文本、 通过TF ‑IDF权重计算方法构 建文 本特征向量; 基于所述特 征向量文本为输入, 通过聚类方法进行案例和法律的特 征匹配。 2.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 对案例文本和法 条文本进行 预处理, 将案例文本和法条文本中无关字符去掉后, 分别进行中分 分词处理。 3.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 通过jieba分词 方法对案例文本和法条文本进行中文分词处 理。 4.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所述具有多 个特征词的案例文本以及法律文本、 通过TF ‑IDF权重计算方法构建文本特征向量, 包括如 下步骤: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 5.根据权利要求1 ‑4任一项所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所 述特征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。 6.一种基于聚类算法的案例匹配系统, 其特征在于, 用于通过如权利要求1 ‑5任一项所 述的基于聚类算法的案例匹配方法进行案例和法律的匹配, 所述系统包括: 采集模块, 所述采集模块用于获取多个案例文本以及多个法律文本, 将所述多个案例 文本以及多个法律文本均存 储于同一个文件夹中; 分词模块, 所述分词模块用于分别对每个案例文本以及每个法律文本进行中文分词处 理, 得到具有 多个词语的案例文本以及法律文本, 所述词语作为特 征词; 向量构建模块, 所述向量构建模块用于基于所述具有多个特征词的案例文本以及法律 文本、 通过TF ‑IDF权重计算方法构建文本特 征向量; 聚类分析模块, 所述聚类分析模块用于基于所述特征向量文本为输入, 通过聚类方法 进行案例和法律的特 征匹配。 7.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于对案例文本和法条文本进行预处理, 将案例文本和法条文本中无关字符去掉后, 分权 利 要 求 书 1/2 页 2 CN 115481251 A 2别进行中分 分词处理。 8.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于通过jieba分词方法对案例文本和法条文本进行中文分词处 理。 9.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述向量构建模 块用于执 行如下: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 10.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述聚类分析 模块用于基于所述特 征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。权 利 要 求 书 2/2 页 3 CN 115481251 A 3

.PDF文档 专利 基于聚类算法的案例匹配方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于聚类算法的案例匹配方法及系统 第 1 页 专利 基于聚类算法的案例匹配方法及系统 第 2 页 专利 基于聚类算法的案例匹配方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。