团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211242472.9 (22)申请日 2022.10.11 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 董善东 李国忠 徐彤  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 张瑞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/955(2019.01) G06F 40/242(2020.01) (54)发明名称 文本处理方法、 装置、 URL处 理方法及装置 (57)摘要 本说明书实施例提供文本处理方法、 装置、 URL处理方法及装置, 其中所述文本处理方法包 括: 对目标文本进行拆分, 获得所述目标文本的 若干个文本分段; 利用文本分类策略, 分析所述 若干个文本分段在所述目标文本中的文本特征, 得到所述若干个文本分段各自对应的分类; 针对 分类不确定的文本分段, 利用单词字典库进行分 析, 得到对应的分类; 将所述若干个文本分段中 对应的分类属于发散的文本分段进行收敛处理, 得到收敛后的文本分段; 利用所述收敛后的文本 分段, 更新所述目标文本。 实现了对单条目标文 本的更新, 进一步实现对目标文本的分类收敛, 从而降低目标文本的存储成本和查询成本, 并且 能够满足一进一出式的流式场景的需求。 权利要求书2页 说明书19页 附图8页 CN 115544208 A 2022.12.30 CN 115544208 A 1.一种文本处 理方法, 包括: 对目标文本进行拆分, 获得 所述目标文本的若干个文本分段; 利用文本分类策略, 分析所述若干个文本分段在所述目标文本中的文本特征, 得到所 述若干个文本分段 各自对应的分类; 针对分类不确定的文本分段, 利用单词字典库进行分析, 得到对应的分类; 将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理, 得到收敛后 的文本分段; 利用所述收敛后的文本分段, 更新所述目标文本 。 2.根据权利要求1所述的方法, 所述针对分类不确定的文本分段, 利用单词字典库进行 分析, 得到对应的分类, 包括: 针对分类不确定的文本分段, 利用单词字典库, 确定所述文本分段对应的文本单词; 根据所述文本单词, 确定所述文本分段对应的第一字符长度; 根据所述文本分段、 以及所述文本分段对应的第一字符长度, 确定所述文本分段对应 的分类。 3.根据权利要求2所述的方法, 所述根据所述文本单词, 确定所述文本分段对应的第 一 字符长度, 包括: 确定所述文本单词在所述文本分段中的字符区间; 根据所述字符区间, 确定所述文本分段对应的第一字符长度。 4.根据权利要求2所述的方法, 所述根据所述文本单词, 确定所述文本分段对应的第 一 字符长度, 包括: 在确定所述文本分段对应的若干个文本单词的情况下, 确定所述若干个文本单词在所 述文本分段中各自对应的字符区间; 对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并, 根据合并结 果确定所述文本分段对应的第一字符长度。 5.根据权利要求2所述的方法, 所述根据所述文本分段、 以及所述文本分段对应的第 一 字符长度, 确定所述文本分段对应的分类, 包括: 确定所述文本分段对应的文本 字符的第二字符长度; 根据所述第一字符长度和所述第二字符长度的比值, 确定所述文本分段对应的分类。 6.根据权利要求5所述的方法, 所述根据所述第一字符长度和所述第二字符长度的比 值, 确定所述文本分段对应的分类, 包括: 在所述比值达到第一比例阈值范围的情况下, 确定所述文本分段对应的分类属于收 敛; 在所述比值达到第二比例阈值范围的情况下, 确定所述文本分段对应的分类属于发 散, 其中, 所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。 7.根据权利要求1所述的方法, 所述利用文本分类策略, 分析所述若干个文本分段在所 述目标文本中的文本特 征, 得到所述若干个文本分段 各自对应的分类, 包括: 确定所述若干个文本分段各自对应的文本字符的字符类型、 以及不同字符类型对应的 文本字符的切换次数; 根据所述字符类型和所述切换次数, 确定所述若干个文本分段 各自对应的分类。权 利 要 求 书 1/2 页 2 CN 115544208 A 28.根据权利要求7所述的方法, 所述字符类型包括字母类型和数字类型, 所述根据 所述 字符类型和所述切换次数, 确定所述若干个文本分段 各自对应的分类, 包括: 在字母类型对应的文本字符的占比达到字母占比阈值范围、 以及不同字符类型对应的 文本字符的切换次数达到第一切换阈值范围的情况下, 确定所述文本 分段对应的分类属于 收敛; 和/或, 在数字类型对应的文本字符的占比达到数字占比阈值范围、 或不同字符类型对应的文 本字符的切换次数达到第二切换阈值范围的情况下, 确定所述文本 分段对应的分类属于发 散, 其中, 所述第一切换阈值范围的上限小于等于所述第二切换阈值范围的下限。 9.根据权利要求1所述的方法, 所述将所述若干个文本分段中对应的分类属于发散的 文本分段进行收敛处 理, 得到收敛后的文本分段, 包括: 确定所述若干个文本分段中对应的分类属于发散的文本分段对应的文本 字符; 根据所述文本 字符, 对所述文本分段进行二次分类; 利用二次分类结果 替换所述文本分段, 得到收敛后的文本分段。 10.根据权利要求1所述的方法, 还 包括: 接收以单 条文本为单位、 流式输入的若干条文本; 所述对目标文本进行拆分, 包括: 将输入的单 条文本作为目标文本进行拆分; 所述更新所述目标文本之后, 还 包括: 以单条文本为单位, 流式输出 更新后的目标文本 。 11.根据权利要求10所述的方法, 所述目标文本为URL, 所述以单条文本为单位, 流式输 出更新后的目标文本之后, 还 包括: 将流式输出的更新后的URL, 逐 条输入至迭代器模型, 以查询所述更新后的URL。 12.一种URL处 理方法, 包括: 对目标URL进行拆分, 获得 所述目标URL的若干个文本分段; 利用文本分类策略, 分析所述若干个文本分段在所述目标URL中的文本特征, 得到所述 若干个文本分段 各自对应的分类; 针对分类不确定的文本分段, 利用单词字典库进行分析, 得到对应的分类; 将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理, 得到收敛后 的文本分段; 利用所述收敛后的文本分段, 更新所述目标URL, 得到更新后的URL; 利用迭代器模型, 查询所述更新后的URL。 13.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指 令, 该计算机可执行指令被处理器执行时实现权利要求1至11或12任意一项所述方法 的步 骤。 14.一种计算机可读存储介质, 其存储有计算机可执行指令, 该计算机可执行指令被处 理器执行时实现权利要求1至1 1或12任意 一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544208 A 3

.PDF文档 专利 文本处理方法、装置、URL处理方法及装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、URL处理方法及装置 第 1 页 专利 文本处理方法、装置、URL处理方法及装置 第 2 页 专利 文本处理方法、装置、URL处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:15:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。