(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211140540.0
(22)申请日 2022.09.20
(71)申请人 号百信息服 务有限公司
地址 200085 上海市虹口区四川北路61号
13-19楼
(72)发明人 周晓辉 王华超 陈诣文
(74)专利代理 机构 上海浦科知识产权代理有限
公司 3140 0
专利代理师 武静
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
5G通信助理文本分类的方法、 装置、 电子设
备及存储介质
(57)摘要
本发明涉及一种5G通信助理文本分类的方
法、 装置、 电子设备及存储介质。 5G通信 助理文本
分类的方法包括步骤: S1、 对语料数据进行ASR转
换, 再对数据进行ETL数据清洗得到模型所需的
原始语料数据集; S2、 数据输入, 将字向量、 词向
量和位置向量进行合并, 生成训练数据, 传递给
BERT的嵌入层进行输出; S3、 由分类模型分别进
行训练; S4、 结果融合, 将由基于Attention机制
改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、
Text RCNN模型输出的语义特征, 分别输入至分
类器层, 得到分类场景下各分类类别的预测概
率; S5、 采用算数平均进行融合, 输出分类结果。
依据本发明的5G通信助理多场景语料数据进行
文本分类的方法, 可以解决分类正确率低的问
题, 并能够提升服 务质量、 挖掘数据潜在价 值。
权利要求书4页 说明书11页 附图4页
CN 115495579 A
2022.12.20
CN 115495579 A
1.一种5G通信助理文本分类的方法, 所述方法基于5G通信助理全场景语料数据进行分
类, 所述语料数据包括通话ID、 通话内容、 通话角色、 通话场景类别、 通话开始时间、 通话结
束时间的数据,
所述方法包括如下步骤:
S1、 对语料数据进行ASR转换, 再对数据进行ETL数据清洗操作, 所述ETL数据清洗包括:
数据抽取、 数据转换和数据加载, 进 而得到模型 所需的原 始语料数据集;
S2、 数据输入, 采用参数级别上亿 的预训练模型BERT将每个输入的原始语料数据通过
token向嵌入层传递, 以便将每个token转换为字向量表 示, 同时BERT还 具有额外的嵌入层,
所述额外的嵌入层包括以句向量嵌入和 位置向量嵌入的形式; 将字 向量、 词向量和 位置向
量进行合并, 生成训练数据, 传递给BERT的嵌入层进行输出;
S3、 由BERT的嵌入层将训练数据输入到分类模型, 由所述分类模型分别 进行训练, 所述
分类模型包括基于Attention机制改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、 Text
RCNN模型;
S4、 结果融合, 将由基于Attention机制改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、
Text RCNN模型输出的语义特征, 分别输入至分类器层, 进而 得到分类场景下各分类类别的
预测概率;
S5、 将步骤S4得到的所述各分类类别的预测概率, 采用算数平均进行融合, 输出分类结
果。
2.如权利要求1所述的方法, 在步骤S1后, 再对原始语料数据集进行包括分词、 去掉停
用词的操作。
3.如权利要求1所述的方法, 所述基于Attention机制改进的BiLSTM模型采用双向LSTM
(Bi‑LSTM)来获取每个字词的上下文语义信息, Bi ‑LSTM通过前 向和后向的LSTM捕获第T时
刻前向隐藏层backwardT和后向隐藏层状态向量forwardT,然后融合forwardT和backwardT
形成最后隐藏层状态向量lastT作为第T时刻节点对应的字词上下文语义向量表示, 前向 隐
藏层状态向量forwardT的计算过程如下:
iT=f(Wi·[forwardT‑1,eT]+bi) (1)
fT=f(Wf·[forwardT‑1,eT]+bf) (2)
oT=f(Wo·[forwardT‑1,eT]+bo) (3)
cT=fT*cT‑1+iT*tanh(Wc·[forwardT‑1,eT]+bc) (4)
forwardT=oT*tanh(cT) (5)
其中, forwardT‑1是第T‑1时刻前向隐藏层状态向量, eT是嵌入层第T个位置的输 出向量,
f是sigmoid激活函数, W权重矩阵, b是偏 置项矩阵, tanh是双曲正切函数, *是元素方式的乘
积运算, cT是状态变 量, cT和输出门一起决定最后的输出; 因BiLSTM网络结构中遗忘门策略,
上下文语义信息的缺失不可避免, 因此融合模型将BERT输出的词向量喂入BiLSTM模型, 进
而得到每 个单词的最终上 下文表示
其中,
代表向量拼接运算;权 利 要 求 书 1/4 页
2
CN 115495579 A
2在BiLSTM模型后融合注意力机制模型能将每个字词的上下文表示向量分配一个重要
度来衡量不同字词对文本全局语义特征的重要程度, 进而得到文本全局语义特征表示
Fglobal, Fglobal的计算公式如下:
其中, Ww是可训练参数, bw是偏置项矩阵,
是uT的转置矩阵, uw是一个随机初始化 的、
可学习的词级别上 下文向量, aT是第T时刻单词的归一 化权重。
4.如权利要求1所述的方法, 其中, 所述Text CNN模型包括输入层、 卷积层、 池化层、 全
连接层; 所述输入层是由BERT的Embendding层进行输入表示的词向量, pooling操作选择将
卷积得到的列向量的最大值提取出来, 相当于pad_size ‑filter_size+1 的维变成一维, 即
将每个卷积核的最大值连接起来, 即通过pooling来消除句子 之间长度不同的差异, 池化层
后面加上全连接层, 并添加用于防止过拟合的L2 正则化和Dr opout正则化方法; 最终的输出
层需要进行Softmax概率归一化, 然后使用Softmax后的预测输出结果和真实标签计算交叉
熵损失。
5.如权利要求1所述的方法, 其中, 所述DPCNN模型通过包括不断加深网络、 固定
feature map的数量的操作, 实现抽取长距离的文本依赖关系, 其中, 每当使用一个 size=3
和stride=2进行max pooling进行池化时, 每个卷积层的计算时间减半, 从而形成一个金
字塔。
6.如权利要求1所述的方法, 其中, 所述Text RCNN模型将卷积层换成双向RNN, 从而形
成双向RNN、 池化层、 输出层的网络结构, 用双向循环结构获取上下文信息; 其次使用最大池
化层获取文本的重要部分, 自动判断哪个特征在文本分类过程中起更重要的作用; 所述
Text RCNN模型训练包括如下步骤:
S31、 第一栏中间的word embedding层, 输入的句子维度为[batch_size,seq_len],
seq_len为输入的句子的长度, 然后经过embedding层, 加载预训练词向量 或者随机初始化,
词向量维度为embed_size, 最终Embedding layer层的输出为[batch_size,seq_len,
embed_size];
S32、 接着将Embedding layer层的输出输入到双向RNN中, 前向和后向所有时刻的隐层
状态输出分别都是[batc h_size,seq_len,hid den_size];
S33、 拼接操作, 需要同时把前向、 后向、 Embedding layer三层输出拼接到一起, 最终的
维度为[batc h_size,seq_len,hid den_size*2+embed_size]。
7.如权利要求1所述的方法, 步骤S4中, 所述结果融合将BiLSTM模型和Attention模型
融合输出的全局语义特征表示为Fglobal, 将TextCNN模型输出的局部语义特征表 示为Flocal1,
将DPCNN模型输出的深层局部语义特征表示为Flocal2, 将TextRCNN模型输出的局部语义特征
表示为Flocal3; 然后分别将Fglobal输入至softmax1分类器层, 进而得到分类场景的各分类类权 利 要 求 书 2/4 页
3
CN 115495579 A
3
专利 5G通信助理文本分类的方法、装置、电子设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:10:14上传分享