团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211034540.2 (22)申请日 2022.08.26 (71)申请人 东莞理工学院 地址 523808 广东省东莞 市松山湖区大 学 路1号 (72)发明人 郑鸿敏 张剑 潘晓衡  (74)专利代理 机构 东莞恒成知识产权代理事务 所(普通合伙) 44412 专利代理师 姚伟旗 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/35(2019.01) G06F 16/951(2019.01) (54)发明名称 一种地址要素解析方法和系统 (57)摘要 本发明涉及地址信息处理技术领域, 且公开 了一种地址要素解析方法和系统, 其中一种地址 要素解析方法, 包括: S1、 训练得到地址信息要素 抽取模型; S2、 对用户输入的地址信息进行命名 实体识别, 用训练好的模 型提取所需信息元, 即, 地址信息要素标签; S3、 储存所提取出的地址信 息要素标签; S4、 将地址信息要素标签以结构化 的方式呈现给用户。 该地址要素解析方法, 通过 引入特征提取器BILSTM和条件随机场CRF, 充分 考虑到了地址要素上下文之间的相关性, 让地址 要素提取模 型基于文本上下关系, 且能够自动学 习相关约束, 从而增强了特征表达, 提高了地址 要素解析的效果。 权利要求书2页 说明书9页 附图1页 CN 115481635 A 2022.12.16 CN 115481635 A 1.一种地址要素解析 方法, 其特 征在于, 所述 地址要素解析 方法包括: S1、 训练模型, 训练出地址信息要素抽取模型; S2、 对用户输入的地址信息进行命名实体识别, 用训练好的模型提取所需信息元, 即, 地址信息要素 标签; S3、 储存所提取 出的地址信息要素 标签; S4、 将地址信息要素 标签以结构化的方式呈现给用户。 2.根据权利要求1所述的地址要素解析方法, 其特征在于, 所述S1的训练模型步骤具体 包括: S11、 通过网络 爬虫技术爬取数据, 并存 储到第一数据库中; S12、 对第一数据库中的数据集进行 预处理; S13、 通过 特征提取层提取文本特 征, 得到序列的特 征表征; S14、 通过最优化输出层得到最优 模型参数, 保存最终的地址信息要素抽取模型。 3.根据权利要求1所述的地址要素解析 方法, 其特 征在于, 所述S2具体包括: S21、 将用户输入地址中的每一个词, 构建一个向量用于表示词的意思以及特征, 将由 词转化而成的词向量 通过编码被 计算机所识别和处 理; S22、 依据用户地址的词向量, 通过模型预测出NER标注序列, 解码并输出每个字的序 列, 即得到信息要素。 4.根据权利要求2或3所述的地址要素解析方法, 其特征在于, 所述S12的预处理步骤包 括: S121、 对数据集进行划分, 其中一部分用来训练, 另一部分用来检验 模型效果; S122、 处理地址信息要素标签, 构 建一个包含所有地址信息要素标签的id表, 将地址元 素地址信息要素 标签转化为跟文本一样大小的k维地址信息要素 标签映射序列; S123、 对划分后的地址数据集进行词向量化, 得到该地址的词向量序列, 作为模型的输 入。 5.根据权利要求 4所述的地址要素解析 方法, 其特 征在于, 所述S13步骤 包括: 将词向量序列(x1, x2, ..., xn)作为特征提取层 各个时间步的输入, 再将正向LSTM输出 的隐状态序列(h1 →, h2→, ..., hn→)与反向LSTM输出的隐状态序列(h1 ←, h2←, ..., hn ←)在各个位置输出的 隐状态进 行按位置拼接ht=[ ht→; ht←]∈Rm, 得到完整的 隐状态序 列(h1, h2, . .., hn)∈Rn ×m; 利用线性关系将隐状态向量从m维映射到k维, k是标注集的地址信息要素标签数, 从而 得到自动提取的句子特征, 记作矩阵P=(p1, p2, ..., pn)∈Rn ×k, 其中, pi的每一维pij都 视作将字i分类到第 j个地址信息要 素标签的打分值, 即这个字对于每个地址信息要 素标签 的概率值; 特征提取层的输出即为得到的评分矩阵P。 6.根据权利要求5所述的地址要素解析 方法, 其特 征在于, 所述S14 步骤中: 以(k+2)×(k+2)的转移矩阵A作为最优化输出层的参数, 其 中, Aij表示为从第i个地址 信息要素 标签到第j个地址信息要素 标签的转移得分; 整个序列的打 分等于各个位置的打 分之和, 每 个位置的打 分由矩阵P和矩阵A决定; 具体为:权 利 要 求 书 1/2 页 2 CN 115481635 A 2记一个长度等于句子长度的地址信息要素标签序列y=(y1, y2, ..., yn), 则句子x的地 址信息要素 标签等于y的得分为: 句子x的地址信 息要素标签等于y的得分随着训练的迭代次数的增加, 更新转移矩阵的 参数值, 得到模型参数, 保存最终的地址要素抽取模型。 7.根据权利要求6所述的地址要素解析 方法, 其特 征在于, 所述S2 2步骤还包括: 通过用户地址的向量序列, 根据转移矩阵的参数进行维特比解码, 得到预测序列标注 值, 输出每 个字对应的地址信息要素 标签。 8.根据权利要求2所述的地址要素解析 方法, 其特 征在于, 所述S1 1步骤还包括: 数据去噪, 去除与地址无关的内容; 对去噪后的数据进行 标注; 对去噪后的数据进行 标注具体为: 指定各个 触发词类型的定义标准; 找出数据中的触发词, 对所有事 件触发词给予对应地址信息要素 标签; 对每个地址句进行分词处理, 并在每个句子插入开头([CLS])以及 结尾([SEP])这两个 地址信息要素 标签用于为分类任务 服务。 9.根据权利要求7 所述的地址要素解析 方法, 其特 征在于, 所述S121步骤具体包括: 训练集, 采用训练模型的数据集, 通过 数据训练得到模型的参数; 验证集, 用于做超参数的选取与模型的选取; 测试集, 用于 评价模型的好坏, 检测训练后的模型效果; 其中, 数据划分比例为8: 1: 1, 将划分好的带地址信息要素标签数据集存储到第二数据 库中; 所述S123步骤 包括: token embedding阶段, 将各个词转换成固定维度的向量; Segment Embeddings阶段, 前一个句子的词用0表示, 后一个句子的词用1表示, 用于处 理对输入句子对的分类任务; Position Embeddings阶段, 对句子中各个词之间的相对位置信息进行处 理; 将三个向量相加即为预处理后的词向量, 并得到句子中各个字的词向量序列(x1, x2, ..., xn), 其中n表示 一个地址信息中字的数量。 10.一种地址要素解析系统, 其特 征在于, 包括: 输入模块: 用户输入需要解析的地址信息; 信息元抽取模块: 用于将数据预处理模块处理后的地址文本进行命名实体识别, 提取 所需信息元, 得到地址文本中每 个字的地址信息要素 标签; 存储模块: 用于储 存提取出来的地址信息要素 标签; 输出模块: 将识别出的地址信息要素 标签以结构化的方式呈现给用户。权 利 要 求 书 2/2 页 3 CN 115481635 A 3

.PDF文档 专利 一种地址要素解析方法和系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种地址要素解析方法和系统 第 1 页 专利 一种地址要素解析方法和系统 第 2 页 专利 一种地址要素解析方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:10:38上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。