团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211172804.0 (22)申请日 2022.09.26 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214125 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 高璇 单震 李萍 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 潘悦梅 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/16(2019.01) G06F 40/284(2020.01) (54)发明名称 基于聚类算法的案例匹配方法及系统 (57)摘要 本发明公开了基于聚类算法的案例匹配方 法及系统, 属于数据处理技术领域, 要解决的技 术问题为如何对案例案例信息与法律信息进行 匹配。 获取多个案例文本以及多个法律文本, 将 所述多个案例文本以及多个法律文本均存储于 同一个文件夹中; 分别对每个案例文本以及每个 法律文本进行中文分词处理, 得到具有多个词语 的案例文本以及法律文本, 所述词语作为特征 词; 基于所述具有多个特征词的案例文本以及法 律文本、 通过TF ‑IDF权重计算方法构建文本特征 向量; 基于所述特征向量文本为输入, 通过聚类 方法进行案例和法律的特 征匹配。 权利要求书2页 说明书10页 附图2页 CN 115481251 A 2022.12.16 CN 115481251 A 1.一种基于聚类算法的案例匹配方法, 其特征在于, 用于实现案例信息与法律信息的 匹配, 所述方法包括如下步骤: 获取多个案例文本以及多个法律文本, 将所述多个案例文本以及多个法律文本均存储 于同一个文件夹中; 分别对每个案例文本以及每个法律文本进行中文分词处理, 得到具有多个词语的案例 文本以及法律文本, 所述词语作为特 征词; 基于所述具有多个特征词的案例文本以及 法律文本、 通过TF ‑IDF权重计算方法构 建文 本特征向量; 基于所述特 征向量文本为输入, 通过聚类方法进行案例和法律的特 征匹配。 2.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 对案例文本和法 条文本进行 预处理, 将案例文本和法条文本中无关字符去掉后, 分别进行中分 分词处理。 3.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 通过jieba分词 方法对案例文本和法条文本进行中文分词处 理。 4.根据权利要求1所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所述具有多 个特征词的案例文本以及法律文本、 通过TF ‑IDF权重计算方法构建文本特征向量, 包括如 下步骤: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 5.根据权利要求1 ‑4任一项所述的基于聚类算法的案例匹配方法, 其特征在于, 基于所 述特征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。 6.一种基于聚类算法的案例匹配系统, 其特征在于, 用于通过如权利要求1 ‑5任一项所 述的基于聚类算法的案例匹配方法进行案例和法律的匹配, 所述系统包括: 采集模块, 所述采集模块用于获取多个案例文本以及多个法律文本, 将所述多个案例 文本以及多个法律文本均存 储于同一个文件夹中; 分词模块, 所述分词模块用于分别对每个案例文本以及每个法律文本进行中文分词处 理, 得到具有 多个词语的案例文本以及法律文本, 所述词语作为特 征词; 向量构建模块, 所述向量构建模块用于基于所述具有多个特征词的案例文本以及法律 文本、 通过TF ‑IDF权重计算方法构建文本特 征向量; 聚类分析模块, 所述聚类分析模块用于基于所述特征向量文本为输入, 通过聚类方法 进行案例和法律的特 征匹配。 7.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于对案例文本和法条文本进行预处理, 将案例文本和法条文本中无关字符去掉后, 分权 利 要 求 书 1/2 页 2 CN 115481251 A 2别进行中分 分词处理。 8.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述分词处理模 块用于通过jieba分词方法对案例文本和法条文本进行中文分词处 理。 9.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述向量构建模 块用于执 行如下: 将具有多个词语的案例文本和法律文本聚合到同一个目标文本中, 所述目标文本 中一 条法律信息或一条案例信息为 一行并代 表一个法律问答或案件文档; 将目标文本中词语转换为词频矩阵, 词频矩阵的列对应目标文本中单词, 词频矩阵行 对应文本, 词频矩阵中元 素a[i][j]表示j词在i个文本下的词频; 统计每个词语的IF ‑IDF权重值; 获取词袋模型中所有的词语; 获取IF‑IDF矩阵, 所述IF ‑IDF矩阵中每一行对应一段文本, 为目标文本的向量表示, 向 量中的值为目标文本中词语的IF ‑IDF值, IF ‑IDF矩阵元素w[i][j]表示j词在i个文本下的 IF‑IDF权重值。 10.根据权利要求6所述的基于聚类算法的案例匹配系统, 其特征在于, 所述聚类分析 模块用于基于所述特 征向量文本为输入, 通过 K‑means算法进行案例和法律的特 征匹配。权 利 要 求 书 2/2 页 3 CN 115481251 A 3
专利 基于聚类算法的案例匹配方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:14:33
上传分享
举报
下载
原文档
(516.1 KB)
分享
友情链接
LY-T 3284-2021 工业有机废气净化用活性炭技术指标及试验方法.pdf
DB31-T 862-2021 “一网通办”政务服务中心建设和运行规范 上海市.pdf
GB-T 43020-2023 调频频段数字音频广播接收机技术规范.pdf
GB 42296-2022 电动自行车用充电器安全技术要求.pdf
T-CES 139—2022 光伏发电功率概率预测技术要求.pdf
GB-T 19228.2-2011 不锈钢卡压式管件组件 第2部分:连接用薄壁不锈钢管.pdf
GB-T 41807-2022 信息安全技术 声纹识别数据安全要求.pdf
GB-T 35229-2017 地面气象观测规范 雪深与雪压.pdf
GB-T 32280-2022 硅片翘曲度和弯曲度的测试 自动非接触扫描法.pdf
YD-T 3979-2021 数据中心浸没式液冷服务器系统技术要求和测试方法.pdf
DB13-T 5722-2023 医院感染应对策略与质量控制 河北省.pdf
GB-T 32608-2016 羽毛球拍及部件的物理参数和试验方法.pdf
T-CIAPS 0031—2023 钠离子电池通用规范.pdf
DB12-T 669-2016 绿色供应链标准化工作指南 天津市.pdf
DB31-T 1339-2021 医院多学科诊疗管理规范 上海市.pdf
GB-T 35290-2023 信息安全技术 射频识别 RFID 系统安全技术规范.pdf
DB15-T 839—2022 高速公路养护工程预算编制办法及定额 内蒙古自治区.pdf
飞驰云联 企业数据防泄密产品选型指南 2021.pdf
T-CATSI 05002—2020 高压液化气体管束式集装箱专项技术要求.pdf
GB-T 42592-2023 风力发电机组 风轮叶片超声波检测方法.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(516.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。