专利 5G通信助理文本分类的方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211140540.0 (22)申请日 2022.09.20 (71)申请人号百信息服务有限公司地址 200085 上海市虹口区四川北路61号 13－19楼 (72)发明人周晓辉　王华超　陈诣文　 (74)专利代理机构上海浦科知识产权代理有限公司 3140 0 专利代理师武静 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 5G通信助理文本分类的方法、装置、电子设备及存储介质 (57)摘要本发明涉及一种5G通信助理文本分类的方法、装置、电子设备及存储介质。 5G通信助理文本分类的方法包括步骤： S1、对语料数据进行ASR转换，再对数据进行ETL数据清洗得到模型所需的原始语料数据集； S2、数据输入，将字向量、词向量和位置向量进行合并，生成训练数据，传递给 BERT的嵌入层进行输出； S3、由分类模型分别进行训练； S4、结果融合，将由基于Attention机制改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、 Text RCNN模型输出的语义特征，分别输入至分类器层，得到分类场景下各分类类别的预测概率； S5、采用算数平均进行融合，输出分类结果。依据本发明的5G通信助理多场景语料数据进行文本分类的方法，可以解决分类正确率低的问题，并能够提升服务质量、挖掘数据潜在价值。权利要求书4页说明书11页附图4页 CN 115495579 A 2022.12.20 CN 115495579 A 1.一种5G通信助理文本分类的方法，所述方法基于5G通信助理全场景语料数据进行分类，所述语料数据包括通话ID、通话内容、通话角色、通话场景类别、通话开始时间、通话结束时间的数据，所述方法包括如下步骤： S1、对语料数据进行ASR转换，再对数据进行ETL数据清洗操作，所述ETL数据清洗包括：数据抽取、数据转换和数据加载，进而得到模型所需的原始语料数据集； S2、数据输入，采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过 token向嵌入层传递，以便将每个token转换为字向量表示，同时BERT还具有额外的嵌入层，所述额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式；将字向量、词向量和位置向量进行合并，生成训练数据，传递给BERT的嵌入层进行输出； S3、由BERT的嵌入层将训练数据输入到分类模型，由所述分类模型分别进行训练，所述分类模型包括基于Attention机制改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、 Text RCNN模型； S4、结果融合，将由基于Attention机制改进的BiLSTM模型、 Text CNN模型、 DPCNN模型、 Text RCNN模型输出的语义特征，分别输入至分类器层，进而得到分类场景下各分类类别的预测概率； S5、将步骤S4得到的所述各分类类别的预测概率，采用算数平均进行融合，输出分类结果。 2.如权利要求1所述的方法，在步骤S1后，再对原始语料数据集进行包括分词、去掉停用词的操作。 3.如权利要求1所述的方法，所述基于Attention机制改进的BiLSTM模型采用双向LSTM (Bi‑LSTM)来获取每个字词的上下文语义信息， Bi ‑LSTM通过前向和后向的LSTM捕获第T时刻前向隐藏层backwardT和后向隐藏层状态向量forwardT,然后融合forwardT和backwardT 形成最后隐藏层状态向量lastT作为第T时刻节点对应的字词上下文语义向量表示，前向隐藏层状态向量forwardT的计算过程如下： iT＝f(Wi·[forwardT‑1,eT]+bi) (1) fT＝f(Wf·[forwardT‑1,eT]+bf) (2) oT＝f(Wo·[forwardT‑1,eT]+bo) (3) cT＝fT*cT‑1+iT*tanh(Wc·[forwardT‑1,eT]+bc) (4) forwardT＝oT*tanh(cT) (5) 其中， forwardT‑1是第T‑1时刻前向隐藏层状态向量， eT是嵌入层第T个位置的输出向量， f是sigmoid激活函数， W权重矩阵， b是偏置项矩阵， tanh是双曲正切函数， *是元素方式的乘积运算， cT是状态变量， cT和输出门一起决定最后的输出；因BiLSTM网络结构中遗忘门策略，上下文语义信息的缺失不可避免，因此融合模型将BERT输出的词向量喂入BiLSTM模型，进而得到每个单词的最终上下文表示其中，代表向量拼接运算；权　利　要　求　书 1/4 页 2 CN 115495579 A 2在BiLSTM模型后融合注意力机制模型能将每个字词的上下文表示向量分配一个重要度来衡量不同字词对文本全局语义特征的重要程度，进而得到文本全局语义特征表示 Fglobal， Fglobal的计算公式如下：其中， Ww是可训练参数， bw是偏置项矩阵，是uT的转置矩阵， uw是一个随机初始化的、可学习的词级别上下文向量， aT是第T时刻单词的归一化权重。 4.如权利要求1所述的方法，其中，所述Text CNN模型包括输入层、卷积层、池化层、全连接层；所述输入层是由BERT的Embendding层进行输入表示的词向量， pooling操作选择将卷积得到的列向量的最大值提取出来，相当于pad_size ‑filter_size+1 的维变成一维，即将每个卷积核的最大值连接起来，即通过pooling来消除句子之间长度不同的差异，池化层后面加上全连接层，并添加用于防止过拟合的L2 正则化和Dr opout正则化方法；最终的输出层需要进行Softmax概率归一化，然后使用Softmax后的预测输出结果和真实标签计算交叉熵损失。 5.如权利要求1所述的方法，其中，所述DPCNN模型通过包括不断加深网络、固定 feature map的数量的操作，实现抽取长距离的文本依赖关系，其中，每当使用一个 size＝3 和stride＝2进行max pooling进行池化时，每个卷积层的计算时间减半，从而形成一个金字塔。 6.如权利要求1所述的方法，其中，所述Text RCNN模型将卷积层换成双向RNN，从而形成双向RNN、池化层、输出层的网络结构，用双向循环结构获取上下文信息；其次使用最大池化层获取文本的重要部分，自动判断哪个特征在文本分类过程中起更重要的作用；所述 Text RCNN模型训练包括如下步骤： S31、第一栏中间的word embedding层，输入的句子维度为[batch_size,seq_len]， seq_len为输入的句子的长度，然后经过embedding层，加载预训练词向量或者随机初始化，词向量维度为embed_size，最终Embedding layer层的输出为[batch_size,seq_len, embed_size]； S32、接着将Embedding layer层的输出输入到双向RNN中，前向和后向所有时刻的隐层状态输出分别都是[batc h_size,seq_len,hid den_size]； S33、拼接操作，需要同时把前向、后向、 Embedding layer三层输出拼接到一起，最终的维度为[batc h_size,seq_len,hid den_size*2+embed_size]。 7.如权利要求1所述的方法，步骤S4中，所述结果融合将BiLSTM模型和Attention模型融合输出的全局语义特征表示为Fglobal，将TextCNN模型输出的局部语义特征表示为Flocal1，将DPCNN模型输出的深层局部语义特征表示为Flocal2，将TextRCNN模型输出的局部语义特征表示为Flocal3；然后分别将Fglobal输入至softmax1分类器层，进而得到分类场景的各分类类权　利　要　求　书 2/4 页 3 CN 115495579 A 3