团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211242472.9 (22)申请日 2022.10.11 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 董善东 李国忠 徐彤 (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 张瑞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/955(2019.01) G06F 40/242(2020.01) (54)发明名称 文本处理方法、 装置、 URL处 理方法及装置 (57)摘要 本说明书实施例提供文本处理方法、 装置、 URL处理方法及装置, 其中所述文本处理方法包 括: 对目标文本进行拆分, 获得所述目标文本的 若干个文本分段; 利用文本分类策略, 分析所述 若干个文本分段在所述目标文本中的文本特征, 得到所述若干个文本分段各自对应的分类; 针对 分类不确定的文本分段, 利用单词字典库进行分 析, 得到对应的分类; 将所述若干个文本分段中 对应的分类属于发散的文本分段进行收敛处理, 得到收敛后的文本分段; 利用所述收敛后的文本 分段, 更新所述目标文本。 实现了对单条目标文 本的更新, 进一步实现对目标文本的分类收敛, 从而降低目标文本的存储成本和查询成本, 并且 能够满足一进一出式的流式场景的需求。 权利要求书2页 说明书19页 附图8页 CN 115544208 A 2022.12.30 CN 115544208 A 1.一种文本处 理方法, 包括: 对目标文本进行拆分, 获得 所述目标文本的若干个文本分段; 利用文本分类策略, 分析所述若干个文本分段在所述目标文本中的文本特征, 得到所 述若干个文本分段 各自对应的分类; 针对分类不确定的文本分段, 利用单词字典库进行分析, 得到对应的分类; 将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理, 得到收敛后 的文本分段; 利用所述收敛后的文本分段, 更新所述目标文本 。 2.根据权利要求1所述的方法, 所述针对分类不确定的文本分段, 利用单词字典库进行 分析, 得到对应的分类, 包括: 针对分类不确定的文本分段, 利用单词字典库, 确定所述文本分段对应的文本单词; 根据所述文本单词, 确定所述文本分段对应的第一字符长度; 根据所述文本分段、 以及所述文本分段对应的第一字符长度, 确定所述文本分段对应 的分类。 3.根据权利要求2所述的方法, 所述根据所述文本单词, 确定所述文本分段对应的第 一 字符长度, 包括: 确定所述文本单词在所述文本分段中的字符区间; 根据所述字符区间, 确定所述文本分段对应的第一字符长度。 4.根据权利要求2所述的方法, 所述根据所述文本单词, 确定所述文本分段对应的第 一 字符长度, 包括: 在确定所述文本分段对应的若干个文本单词的情况下, 确定所述若干个文本单词在所 述文本分段中各自对应的字符区间; 对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并, 根据合并结 果确定所述文本分段对应的第一字符长度。 5.根据权利要求2所述的方法, 所述根据所述文本分段、 以及所述文本分段对应的第 一 字符长度, 确定所述文本分段对应的分类, 包括: 确定所述文本分段对应的文本 字符的第二字符长度; 根据所述第一字符长度和所述第二字符长度的比值, 确定所述文本分段对应的分类。 6.根据权利要求5所述的方法, 所述根据所述第一字符长度和所述第二字符长度的比 值, 确定所述文本分段对应的分类, 包括: 在所述比值达到第一比例阈值范围的情况下, 确定所述文本分段对应的分类属于收 敛; 在所述比值达到第二比例阈值范围的情况下, 确定所述文本分段对应的分类属于发 散, 其中, 所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。 7.根据权利要求1所述的方法, 所述利用文本分类策略, 分析所述若干个文本分段在所 述目标文本中的文本特 征, 得到所述若干个文本分段 各自对应的分类, 包括: 确定所述若干个文本分段各自对应的文本字符的字符类型、 以及不同字符类型对应的 文本字符的切换次数; 根据所述字符类型和所述切换次数, 确定所述若干个文本分段 各自对应的分类。权 利 要 求 书 1/2 页 2 CN 115544208 A 28.根据权利要求7所述的方法, 所述字符类型包括字母类型和数字类型, 所述根据 所述 字符类型和所述切换次数, 确定所述若干个文本分段 各自对应的分类, 包括: 在字母类型对应的文本字符的占比达到字母占比阈值范围、 以及不同字符类型对应的 文本字符的切换次数达到第一切换阈值范围的情况下, 确定所述文本 分段对应的分类属于 收敛; 和/或, 在数字类型对应的文本字符的占比达到数字占比阈值范围、 或不同字符类型对应的文 本字符的切换次数达到第二切换阈值范围的情况下, 确定所述文本 分段对应的分类属于发 散, 其中, 所述第一切换阈值范围的上限小于等于所述第二切换阈值范围的下限。 9.根据权利要求1所述的方法, 所述将所述若干个文本分段中对应的分类属于发散的 文本分段进行收敛处 理, 得到收敛后的文本分段, 包括: 确定所述若干个文本分段中对应的分类属于发散的文本分段对应的文本 字符; 根据所述文本 字符, 对所述文本分段进行二次分类; 利用二次分类结果 替换所述文本分段, 得到收敛后的文本分段。 10.根据权利要求1所述的方法, 还 包括: 接收以单 条文本为单位、 流式输入的若干条文本; 所述对目标文本进行拆分, 包括: 将输入的单 条文本作为目标文本进行拆分; 所述更新所述目标文本之后, 还 包括: 以单条文本为单位, 流式输出 更新后的目标文本 。 11.根据权利要求10所述的方法, 所述目标文本为URL, 所述以单条文本为单位, 流式输 出更新后的目标文本之后, 还 包括: 将流式输出的更新后的URL, 逐 条输入至迭代器模型, 以查询所述更新后的URL。 12.一种URL处 理方法, 包括: 对目标URL进行拆分, 获得 所述目标URL的若干个文本分段; 利用文本分类策略, 分析所述若干个文本分段在所述目标URL中的文本特征, 得到所述 若干个文本分段 各自对应的分类; 针对分类不确定的文本分段, 利用单词字典库进行分析, 得到对应的分类; 将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理, 得到收敛后 的文本分段; 利用所述收敛后的文本分段, 更新所述目标URL, 得到更新后的URL; 利用迭代器模型, 查询所述更新后的URL。 13.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指 令, 该计算机可执行指令被处理器执行时实现权利要求1至11或12任意一项所述方法 的步 骤。 14.一种计算机可读存储介质, 其存储有计算机可执行指令, 该计算机可执行指令被处 理器执行时实现权利要求1至1 1或12任意 一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544208 A 3
专利 文本处理方法、装置、URL处理方法及装置
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 02:15:25
上传分享
举报
下载
原文档
(1017.7 KB)
分享
友情链接
关于规范金融业开源技术应用与发展的意见.pdf
DB52-T 1626-2021 水利工程调整概算报告编制导则 贵州省.pdf
GB-T 33173-2016 资产管理 管理体系 要求.pdf
GB-T 15851.3-2018 信息技术 安全技术 带消息恢复的数字签名方案 第3部分:基于离散对数的机制.pdf
T-NIFA 9—2021 移动金融客户端应用软件安全检测规范.pdf
T-GDYLSH 2.1—2022 旅居养老服务 第1部分:总则.pdf
GB-T 223.82-2018 钢铁 氢含量的测定 惰性气体熔融-热导或红外法.pdf
T-CADERM 5015—2023 救护直升机院际患者转运规范.pdf
GB-T 9491-2021 锡焊用助焊剂.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
信息安全技术 零信任参考体系架构.pdf
GB-T 28920-2012 教学实验用危险固体、液体的使用与保管.pdf
GB-T 16649.15-2010 识别卡 集成电路卡 第15部分:密码信息应用.pdf
GB-T 41009-2021 法庭科学 DNA数据库选用的基因座及其数据结构.pdf
GB-T 19596-2017 电动汽车术语.pdf
T-CEC 726—2022 户用光伏发电集群控制系统技术要求.pdf
GB-T 18916.61-2022 取水定额 第61部分:赖氨酸盐.pdf
T-CESA 1218—2022 服务器基板管理控制器 BMC 技术要求.pdf
T-BSIA 002—2023 软件企业核心竞争力评价规范.pdf
GB-T 41798-2022 智能网联汽车 自动驾驶功能场地试验方法及要求.pdf
1
/
3
30
评价文档
赞助2.5元 点击下载(1017.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。