(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211034540.2
(22)申请日 2022.08.26
(71)申请人 东莞理工学院
地址 523808 广东省东莞 市松山湖区大 学
路1号
(72)发明人 郑鸿敏 张剑 潘晓衡
(74)专利代理 机构 东莞恒成知识产权代理事务
所(普通合伙) 44412
专利代理师 姚伟旗
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/35(2019.01)
G06F 16/951(2019.01)
(54)发明名称
一种地址要素解析方法和系统
(57)摘要
本发明涉及地址信息处理技术领域, 且公开
了一种地址要素解析方法和系统, 其中一种地址
要素解析方法, 包括: S1、 训练得到地址信息要素
抽取模型; S2、 对用户输入的地址信息进行命名
实体识别, 用训练好的模 型提取所需信息元, 即,
地址信息要素标签; S3、 储存所提取出的地址信
息要素标签; S4、 将地址信息要素标签以结构化
的方式呈现给用户。 该地址要素解析方法, 通过
引入特征提取器BILSTM和条件随机场CRF, 充分
考虑到了地址要素上下文之间的相关性, 让地址
要素提取模 型基于文本上下关系, 且能够自动学
习相关约束, 从而增强了特征表达, 提高了地址
要素解析的效果。
权利要求书2页 说明书9页 附图1页
CN 115481635 A
2022.12.16
CN 115481635 A
1.一种地址要素解析 方法, 其特 征在于, 所述 地址要素解析 方法包括:
S1、 训练模型, 训练出地址信息要素抽取模型;
S2、 对用户输入的地址信息进行命名实体识别, 用训练好的模型提取所需信息元, 即,
地址信息要素 标签;
S3、 储存所提取 出的地址信息要素 标签;
S4、 将地址信息要素 标签以结构化的方式呈现给用户。
2.根据权利要求1所述的地址要素解析方法, 其特征在于, 所述S1的训练模型步骤具体
包括:
S11、 通过网络 爬虫技术爬取数据, 并存 储到第一数据库中;
S12、 对第一数据库中的数据集进行 预处理;
S13、 通过 特征提取层提取文本特 征, 得到序列的特 征表征;
S14、 通过最优化输出层得到最优 模型参数, 保存最终的地址信息要素抽取模型。
3.根据权利要求1所述的地址要素解析 方法, 其特 征在于, 所述S2具体包括:
S21、 将用户输入地址中的每一个词, 构建一个向量用于表示词的意思以及特征, 将由
词转化而成的词向量 通过编码被 计算机所识别和处 理;
S22、 依据用户地址的词向量, 通过模型预测出NER标注序列, 解码并输出每个字的序
列, 即得到信息要素。
4.根据权利要求2或3所述的地址要素解析方法, 其特征在于, 所述S12的预处理步骤包
括:
S121、 对数据集进行划分, 其中一部分用来训练, 另一部分用来检验 模型效果;
S122、 处理地址信息要素标签, 构 建一个包含所有地址信息要素标签的id表, 将地址元
素地址信息要素 标签转化为跟文本一样大小的k维地址信息要素 标签映射序列;
S123、 对划分后的地址数据集进行词向量化, 得到该地址的词向量序列, 作为模型的输
入。
5.根据权利要求 4所述的地址要素解析 方法, 其特 征在于, 所述S13步骤 包括:
将词向量序列(x1, x2, ..., xn)作为特征提取层 各个时间步的输入, 再将正向LSTM输出
的隐状态序列(h1 →, h2→, ..., hn→)与反向LSTM输出的隐状态序列(h1 ←, h2←, ..., hn
←)在各个位置输出的 隐状态进 行按位置拼接ht=[ ht→; ht←]∈Rm, 得到完整的 隐状态序
列(h1, h2, . .., hn)∈Rn ×m;
利用线性关系将隐状态向量从m维映射到k维, k是标注集的地址信息要素标签数, 从而
得到自动提取的句子特征, 记作矩阵P=(p1, p2, ..., pn)∈Rn ×k, 其中, pi的每一维pij都
视作将字i分类到第 j个地址信息要 素标签的打分值, 即这个字对于每个地址信息要 素标签
的概率值;
特征提取层的输出即为得到的评分矩阵P。
6.根据权利要求5所述的地址要素解析 方法, 其特 征在于, 所述S14 步骤中:
以(k+2)×(k+2)的转移矩阵A作为最优化输出层的参数, 其 中, Aij表示为从第i个地址
信息要素 标签到第j个地址信息要素 标签的转移得分;
整个序列的打 分等于各个位置的打 分之和, 每 个位置的打 分由矩阵P和矩阵A决定;
具体为:权 利 要 求 书 1/2 页
2
CN 115481635 A
2记一个长度等于句子长度的地址信息要素标签序列y=(y1, y2, ..., yn), 则句子x的地
址信息要素 标签等于y的得分为:
句子x的地址信 息要素标签等于y的得分随着训练的迭代次数的增加, 更新转移矩阵的
参数值, 得到模型参数, 保存最终的地址要素抽取模型。
7.根据权利要求6所述的地址要素解析 方法, 其特 征在于, 所述S2 2步骤还包括:
通过用户地址的向量序列, 根据转移矩阵的参数进行维特比解码, 得到预测序列标注
值, 输出每 个字对应的地址信息要素 标签。
8.根据权利要求2所述的地址要素解析 方法, 其特 征在于, 所述S1 1步骤还包括:
数据去噪, 去除与地址无关的内容;
对去噪后的数据进行 标注;
对去噪后的数据进行 标注具体为:
指定各个 触发词类型的定义标准;
找出数据中的触发词, 对所有事 件触发词给予对应地址信息要素 标签;
对每个地址句进行分词处理, 并在每个句子插入开头([CLS])以及 结尾([SEP])这两个
地址信息要素 标签用于为分类任务 服务。
9.根据权利要求7 所述的地址要素解析 方法, 其特 征在于, 所述S121步骤具体包括:
训练集, 采用训练模型的数据集, 通过 数据训练得到模型的参数;
验证集, 用于做超参数的选取与模型的选取;
测试集, 用于 评价模型的好坏, 检测训练后的模型效果;
其中, 数据划分比例为8: 1: 1, 将划分好的带地址信息要素标签数据集存储到第二数据
库中;
所述S123步骤 包括:
token embedding阶段, 将各个词转换成固定维度的向量;
Segment Embeddings阶段, 前一个句子的词用0表示, 后一个句子的词用1表示, 用于处
理对输入句子对的分类任务;
Position Embeddings阶段, 对句子中各个词之间的相对位置信息进行处 理;
将三个向量相加即为预处理后的词向量, 并得到句子中各个字的词向量序列(x1,
x2, ..., xn), 其中n表示 一个地址信息中字的数量。
10.一种地址要素解析系统, 其特 征在于, 包括:
输入模块: 用户输入需要解析的地址信息;
信息元抽取模块: 用于将数据预处理模块处理后的地址文本进行命名实体识别, 提取
所需信息元, 得到地址文本中每 个字的地址信息要素 标签;
存储模块: 用于储 存提取出来的地址信息要素 标签;
输出模块: 将识别出的地址信息要素 标签以结构化的方式呈现给用户。权 利 要 求 书 2/2 页
3
CN 115481635 A
3
专利 一种地址要素解析方法和系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:10:38上传分享