(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211010641.6
(22)申请日 2022.08.23
(65)同一申请的已公布的文献号
申请公布号 CN 115081449 A
(43)申请公布日 2022.09.20
(73)专利权人 北京睿企信息科技有限公司
地址 100013 北京市东城区和平里 北街6号
6号楼一层101室
专利权人 日照睿安信息科技有限公司
(72)发明人 靳雯 于伟 赵洲洋 石江枫
王全修 王明超
(74)专利代理 机构 北京锺维联合知识产权代理
有限公司 1 1579
专利代理师 李慧敏(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 40/216(2020.01)
G06F 40/237(2020.01)
G06F 16/35(2019.01)
G06F 16/903(2019.01)
G06N 20/00(2019.01)
(56)对比文件
CN 109977395 A,2019.07.0 5
CN 113536781 A,2021.10.2 2
CN 112560478 A,2021.0 3.26
CN 10876 3215 A,2018.1 1.06
WO 2022142011 A1,202 2.07.07
审查员 韦佳黎
(54)发明名称
一种地址识别方法及系统
(57)摘要
本发明涉及地址识别技术领域, 具体涉及一
种地址识别方法及系统, 该方法包括: 提取待识
别文本信息中的标准地址信息DR, 在DR中包括两
个相同地址级别的路段地址字段, 且路段地址字
段{DRi‑1,DRi}在DR中相邻时, 获取所述待识别文
本信息中{DRi‑1,DRi}之间的中间文本T的字符长
度S, 比较S与预设字符长度阈值S0的大小, 若S<
S0, 则提取待识别 文本信息中的T, 并对待识别 文
本信息进行分词得到多个词, 并提取与DRi相邻
的M个后缀词, 当T与连词词表匹配成功, 且FLm与
后缀词词表匹配成功时, 将地址字段、 中间文本
和后缀词组合为地址位置, 达到识别具体地址位
置的目的, 解决了现有技术中能够识别相应的地
址字段但无法识别具体位置的问题。
权利要求书2页 说明书5页 附图1页
CN 115081449 B
2022.11.04
CN 115081449 B
1.一种地址识别方法, 其特 征在于, 所述识别方法包括:
S100, 提取待识别 文本信息中的标准地址信息DR, 其 中, 所述标准地址信息DR为按照标
准的地址分级体系提取得到的由N个地址字段组成 的DR={DR1,DR2,…,DRN},其中, N为正整
数;
S200, 在DR中包括两个相同地址级别的路段地址字 段, 且路段地址字 段{DRi‑1,DRi}在DR
中相邻时, 获取所述待识别文本信息中{DRi‑1,DRi}之间的中间文本T的字符长度S, 其中
DRi‑1为第i‑1个地址字段, DRi为第i个地址 字段, i的取值范围为1到N, S为 正整数;
S300, 比较S与预设字符长度阈值S0的大小, 若S<S0, 则提取待识别文本信息中的T, 并
对待识别文本信息进行分词得到多个词, 并提取与DRi相邻的M个后缀词{FL1,FL2,…,FLM},
M为正整数;
S400, 当T与连词词表匹配成功, 且FLm与后缀词词表匹配成功时, 其中m的取值范 围为1
到M, 将地址 字段、 中间文本和后缀词组合 为地址位置 。
2.根据权利要求1所述的识别方法, 其特 征在于, 所述连词 词表的获取步骤 包括:
对于存在相同级别的路段地址字段的样本, 判断在样本中在两个相同级别的路段地址
字段之间中间文本的长度 是否小于S0, 若小于S0, 则将中间文本取出, 并对该中间文本进行
人工标注, 标注为连词, 将连词放入连词 词表。
3.根据权利要求1所述的识别方法, 其特 征在于, 所述后缀词 词表的获取步骤 包括:
对于存在相同级别的路段地址字段的样本, 对样本进行分词, 提取样本中与在后的路
段地址字段相邻的多个后缀词, 将所有样本的后缀词转为词向量, 对词向量进行聚类得到
多个类别, 人工删除与地址无关的类别, 并将 每个类别中词向量标注为后缀词, 将后缀词放
入后缀词 词表。
4.根据权利要求1所述的识别方法, 其特 征在于, 所述S40 0包括:
S401, 在连词 词表中对T 进行查找匹配, 若直接命中, 则匹配成功;
S402, 若未直接命中, 计算T与连词词表中每个连词之间的相似度获取最大相似度, 若
最大相似度大于预设的第一相似度阈值, 则匹配成功。
5.根据权利要求 4所述的识别方法, 其特 征在于, S402进一 步包括:
将T转为词向量, 将连词词表中的连词转为词向量, 计算T的词向量和连词的词向量之
间的相似度。
6.根据权利要求1所述的识别方法, 其特 征在于, 所述S40 0包括:
S410, 在后缀词 词表中对FLm进行查找匹配, 若直接命中, 则匹配成功;
S420, 若未直接命中, 计算FLm与后缀词词表 中每个后缀词之间的相似度获取最大相似
度, 若最大相似度大于预设的第二相似度阈值, 则匹配成功。
7.根据权利要求1所述的识别方法, 其特征在于, 所述S100中采用机器学习模型提取待
识别文本信息中的标准 化的地址信息DR。
8.根据权利要求7 所述的识别方法, 其特 征在于, 所述机器学习模型的训练步骤 包括:
S110, 获取包 括Q个样本的训练集R={r1,r2,…,rQ}, 其中Q为正整数, 第q个样本rq为包括
地址字段的文本信息, q的取值范围为1到Q;
S120, 按照标准地址分级体系为rq中所包含的地址字段进行标注得到E个标签{eq
1,
eq
2,…,eq
E},其中, 其中E为 正整数;权 利 要 求 书 1/2 页
2
CN 115081449 B
2S130, 将{eq
1,eq
2,…,eq
E }和rq输入机器学习模型中进行训练得到预测结果。
9.根据权利要求8所述的识别方法, 其特 征在于, 所述S120进一 步包括:
S121, 对于训练集R, 统计已标注的样本数据中包含地址指示词的地址字段数量npos以
及不包含地址指示词的地址 字段数量nneg;
S122, 将不包含地址指示词的地址字段与未标注的真实地址数据集进行字符串匹配,
统计出不包含地址指示词的真实地址字段的数量Npos以及包含地址指示词的真实地址字段
的数量Nneg;
其中, 不包含地址指示词的标注地址字段的占比p满足: p=npos/(npos+nneg), 不包含地址
指示词的真实地址字段的占比P 满足: P=Npos/(Npos+Nneg); 则去除R中地址指示词的地址数量
result满足: result=(npos+nneg)×(p+1/2×(P‑p))‑npos。
10.一种地址识别系统, 其特征在于, 所述系统包括处理器和非瞬时性计算机可读存储
介质, 所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序, 所述至
少一条指 令或所述至少一段程序由处理器加载并执行以实现权利要求 1‑9任意一项 所述的
识别方法。权 利 要 求 书 2/2 页
3
CN 115081449 B
3
专利 一种地址识别方法及系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:10:39上传分享