专利 一种地址识别方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211010641.6 (22)申请日 2022.08.23 (65)同一申请的已公布的文献号申请公布号 CN 115081449 A (43)申请公布日 2022.09.20 (73)专利权人北京睿企信息科技有限公司地址 100013 北京市东城区和平里北街6号 6号楼一层101室专利权人日照睿安信息科技有限公司 (72)发明人靳雯　于伟　赵洲洋　石江枫　王全修　王明超　 (74)专利代理机构北京锺维联合知识产权代理有限公司 1 1579 专利代理师李慧敏(51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/237(2020.01) G06F 16/35(2019.01) G06F 16/903(2019.01) G06N 20/00(2019.01) (56)对比文件 CN 109977395 A,2019.07.0 5 CN 113536781 A,2021.10.2 2 CN 112560478 A,2021.0 3.26 CN 10876 3215 A,2018.1 1.06 WO 2022142011 A1,202 2.07.07 审查员韦佳黎 (54)发明名称一种地址识别方法及系统 (57)摘要本发明涉及地址识别技术领域，具体涉及一种地址识别方法及系统，该方法包括：提取待识别文本信息中的标准地址信息DR，在DR中包括两个相同地址级别的路段地址字段，且路段地址字段{DRi‑1,DRi}在DR中相邻时，获取所述待识别文本信息中{DRi‑1,DRi}之间的中间文本T的字符长度S，比较S与预设字符长度阈值S0的大小，若S＜ S0，则提取待识别文本信息中的T，并对待识别文本信息进行分词得到多个词，并提取与DRi相邻的M个后缀词，当T与连词词表匹配成功，且FLm与后缀词词表匹配成功时，将地址字段、中间文本和后缀词组合为地址位置，达到识别具体地址位置的目的，解决了现有技术中能够识别相应的地址字段但无法识别具体位置的问题。权利要求书2页说明书5页附图1页 CN 115081449 B 2022.11.04 CN 115081449 B 1.一种地址识别方法，其特征在于，所述识别方法包括： S100，提取待识别文本信息中的标准地址信息DR，其中，所述标准地址信息DR为按照标准的地址分级体系提取得到的由N个地址字段组成的DR={DR1,DR2,…,DRN},其中， N为正整数； S200，在DR中包括两个相同地址级别的路段地址字段，且路段地址字段{DRi‑1,DRi}在DR 中相邻时，获取所述待识别文本信息中{DRi‑1,DRi}之间的中间文本T的字符长度S，其中 DRi‑1为第i‑1个地址字段， DRi为第i个地址字段， i的取值范围为1到N， S为正整数； S300，比较S与预设字符长度阈值S0的大小，若S＜S0，则提取待识别文本信息中的T，并对待识别文本信息进行分词得到多个词，并提取与DRi相邻的M个后缀词{FL1,FL2,…,FLM}， M为正整数； S400，当T与连词词表匹配成功，且FLm与后缀词词表匹配成功时，其中m的取值范围为1 到M，将地址字段、中间文本和后缀词组合为地址位置。 2.根据权利要求1所述的识别方法，其特征在于，所述连词词表的获取步骤包括：对于存在相同级别的路段地址字段的样本，判断在样本中在两个相同级别的路段地址字段之间中间文本的长度是否小于S0，若小于S0，则将中间文本取出，并对该中间文本进行人工标注，标注为连词，将连词放入连词词表。 3.根据权利要求1所述的识别方法，其特征在于，所述后缀词词表的获取步骤包括：对于存在相同级别的路段地址字段的样本，对样本进行分词，提取样本中与在后的路段地址字段相邻的多个后缀词，将所有样本的后缀词转为词向量，对词向量进行聚类得到多个类别，人工删除与地址无关的类别，并将每个类别中词向量标注为后缀词，将后缀词放入后缀词词表。 4.根据权利要求1所述的识别方法，其特征在于，所述S40 0包括： S401，在连词词表中对T 进行查找匹配，若直接命中，则匹配成功； S402，若未直接命中，计算T与连词词表中每个连词之间的相似度获取最大相似度，若最大相似度大于预设的第一相似度阈值，则匹配成功。 5.根据权利要求 4所述的识别方法，其特征在于， S402进一步包括：将T转为词向量，将连词词表中的连词转为词向量，计算T的词向量和连词的词向量之间的相似度。 6.根据权利要求1所述的识别方法，其特征在于，所述S40 0包括： S410，在后缀词词表中对FLm进行查找匹配，若直接命中，则匹配成功； S420，若未直接命中，计算FLm与后缀词词表中每个后缀词之间的相似度获取最大相似度，若最大相似度大于预设的第二相似度阈值，则匹配成功。 7.根据权利要求1所述的识别方法，其特征在于，所述S100中采用机器学习模型提取待识别文本信息中的标准化的地址信息DR。 8.根据权利要求7 所述的识别方法，其特征在于，所述机器学习模型的训练步骤包括： S110，获取包括Q个样本的训练集R={r1,r2,…,rQ}，其中Q为正整数，第q个样本rq为包括地址字段的文本信息， q的取值范围为1到Q； S120，按照标准地址分级体系为rq中所包含的地址字段进行标注得到E个标签{eq 1, eq 2,…,eq E},其中，其中E为正整数；权　利　要　求　书 1/2 页 2 CN 115081449 B 2S130，将{eq 1,eq 2,…,eq E }和rq输入机器学习模型中进行训练得到预测结果。 9.根据权利要求8所述的识别方法，其特征在于，所述S120进一步包括： S121，对于训练集R，统计已标注的样本数据中包含地址指示词的地址字段数量npos以及不包含地址指示词的地址字段数量nneg； S122，将不包含地址指示词的地址字段与未标注的真实地址数据集进行字符串匹配，统计出不包含地址指示词的真实地址字段的数量Npos以及包含地址指示词的真实地址字段的数量Nneg；其中，不包含地址指示词的标注地址字段的占比p满足： p=npos/(npos+nneg)，不包含地址指示词的真实地址字段的占比P 满足： P=Npos/(Npos+Nneg)；则去除R中地址指示词的地址数量 result满足： result=(npos+nneg)×(p+1/2×(P‑p))‑npos。 10.一种地址识别系统，其特征在于，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现权利要求 1‑9任意一项所述的识别方法。权　利　要　求　书 2/2 页 3 CN 115081449 B 3

专利 一种地址识别方法及系统

专利一种地址识别方法及系统