团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211198465.3 (22)申请日 2022.09.29 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 刘珮 钱兵 马冲 薛艳茹  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 专利代理师 张海强 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 文档的推荐方法及装置 (57)摘要 本公开提供了一种文档的推荐 方法及装置, 涉及自然语言处理技术领域, 所述方法包括: 获 取多个待推荐文档与基准文档关于第一组对象 的相似度, 所述第一组对象包括标题、 摘要和正 文中的多种对象; 将所述多个待推荐文档分别按 照所述第一组对象中的每种对象进行聚类以得 到对应的聚类结果; 根据所述第一组对象中的每 种对象的相似度和对应的聚类结果, 推荐所述多 个待推荐 文档。 权利要求书3页 说明书10页 附图3页 CN 115481237 A 2022.12.16 CN 115481237 A 1.一种文档的推荐方法, 包括: 获取多个待推荐文档与基准文档关于第一组对象的相似度, 所述第一组对象包括标 题、 摘要和正文中的多种对象; 将所述多个待推荐文档分别按照所述第一组对象中的每种对象进行聚类以得到对应 的聚类结果; 根据所述第 一组对象中的每种 对象的相似度和对应的聚类结果, 推荐所述多个待推荐 文档。 2.根据权利要求1所述的方法, 其中, 所述根据所述第 一组对象中的每种 对象的相似度 和对应的聚类结果, 推荐所述多个待推荐 文档包括: 根据所述聚类结果确定所述聚类结果对应的对象的相似度的权值, 其中, 所述聚类结 果越好, 所述聚类结果对应的对象的相似度的权值越高; 根据所述第 一组对象中的每种 对象的相似度和权值, 计算每个待推荐文档的融合相似 度; 根据所述融合相似度确定所述多个待推荐文档的推荐顺序, 其中, 所述融合相似度越 高的待推荐 文档的推荐顺序越靠前。 3.根据权利要求2所述的方法, 其中, 所述根据所述第 一组对象中的每种 对象对应的聚 类结果确定相应对象的相似度的权值包括: 计算所述聚类结果对应的Cal inski‑Harabasz指标; 采用归一化指数函数对所述Calinski ‑Harabasz指标进行处理以获取所述第一组对象 中的每种对象的相似度的权值。 4.根据权利要求2所述的方法, 其中, 根据 所述第一组对象中的每种对象的相似度和权 值, 计算每 个待推荐 文档的融合相似度包括: 根据所述第 一组对象中的每种 对象的相似度和权值, 计算每个待推荐文档的初始融合 相似度; 根据每个待推荐文档的类别修正每个待推荐文档的初始融合相似度以得到所述融合 相似度, 其中, 针对 任意一个待推荐 文档: 在所述任意一个待推荐文档与所述基准文档属于相同类别时, 所述任意一个待推荐文 档的融合相似度S=θ ×1+(1‑θ )×s, 其中, s为所述任意一个待推荐文档的初始融合相似 度, 0< θ ≤1, 在所述任意一个待推荐文档与所述基准文档属于不同类别时, 所述任意一个待推荐文 档的融合相似度等于所述任意 一个待推荐 文档的初始融合相似度。 5.根据权利要求4所述的方法, 其中, 每个待推荐文档的类别通过预先训练的文档分类 模型预测得到, 所述文档分类模型通过以下步骤训练得到: 将多个初始文档按照所述多个初始文档的摘要进行聚类以得到初始聚类结果, 其中, 所述多个初始文档包括所述多个待推荐 文档; 以至少部分初始文档作为输入、 所述至少部分初始文档的类别作为输出, 对所述文档 分类模型进行训练, 其中, 所述至少部分初始文档的类别根据所述初始聚类结果确定 。 6.根据权利要求5所述的方法, 其中, 所述将多个初始文档按照所述多个初始文档的摘 要进行聚类以得到初始聚类结果包括:权 利 要 求 书 1/3 页 2 CN 115481237 A 2去除所述多个初始文档的摘要中的冗余信息; 将所述多个初始文档按照去除冗余信息的摘要 进行聚类以得到所述初始聚类结果。 7.根据权利要求1所述的方法, 还 包括: 计算多个初始文档与 所述基准文档关于第 二组对象的相似度, 所述第 二组对象包括标 题、 摘要和正文中的多种对象, 其中, 所述第二组对象的相似度中至少两种对象的相似度的 类型不同; 将所述多个初始文档中所述第二组对象的相似度满足预设推荐条件的初始文档确定 为所述多个待推荐 文档。 8.根据权利要求7所述的方法, 其中, 所述第 二组对象中的多种 对象和所述第 一组对象 中的多种对象相同。 9.根据权利要求7所述的方法, 其中, 在所述第二组对象包括所述标题的情况下, 所述 标题的相似度根据莱温斯 坦编辑距离确定 。 10.根据权利要求7所述的方法, 其中, 在所述第 二组对象包括所述摘要的情况下, 所述 摘要的相似度根据TFIDF算法确定 。 11.根据权利要求7 ‑10任意一项所述的方法, 其中, 在所述第二组对象包括所述正文的 情况下, 所述正文的相似度根据所述初始文档和所述基准文档的正文向量之间的余弦相似 度确定, 其中所述 正文向量 通过BERT模型 得到。 12.根据权利要求7所述的方法, 其中, 所述预设推荐条件包括综合相似度大于预设的 综合相似度阈值, 其中, 所述综合相似度由所述第二组对 象中的每种对 象的相似度进行加 权计算而获得。 13.根据权利要求7或12所述的方法, 其中, 所述第二组对象中的每种对象分别对应一 个相似度阈值, 所述预设推荐 条件包括所述第二组对象中每种对象的相似度均大于对应的 相似度阈值。 14.根据权利要求1所述的方法, 还 包括: 响应于用户搜索得到的所述基准文档, 执 行所述获取。 15.根据权利要求1 ‑10任意一项所述的方法, 其中, 所述多个待推荐文档与基准文档为 通信故障案例文档, 所述摘要为所述 通信故障案例文档的故障描述。 16.一种文档的推荐装置, 包括: 获取模块, 被配置为获取多个待推荐文档与基准文档关于第一组对象的相似度, 所述 第一组对象包括标题、 摘要和正文中的多种对象; 聚类模块, 被配置为将所述多个待推荐文档分别按照所述第 一组对象中的每种 对象进 行聚类以得到对应的聚类结果; 推荐模块, 被配置为根据所述第一组对象中的每种对象的相似度和对应的聚类结果, 推荐所述多个待推荐 文档。 17.一种文档的推荐装置, 包括: 存储器; 以及 耦接至所述存储器的处理器, 被配置为基于存储在所述存储器中的指令, 执行权利要 求1‑15任意一项所述的方法。 18.一种计算机可读存储介质, 包括计算机程序指令, 其中, 所述计算机程序指令被处权 利 要 求 书 2/3 页 3 CN 115481237 A 3

.PDF文档 专利 文档的推荐方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档的推荐方法及装置 第 1 页 专利 文档的推荐方法及装置 第 2 页 专利 文档的推荐方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。