专利 基于双通道神经网络与注意力机制的政策文本智能分类方法、系统及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211032341.8 (22)申请日 2022.08.26 (71)申请人暨南大学地址 510000 广东省广州市黄埔大道西6 01 号 (72)发明人刘敏　伍颖欣　柯毅明　孟庆旭　 (74)专利代理机构广东穗科知识产权代理事务所(普通合伙) 44834 专利代理师黄启文 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) (54)发明名称基于双通道神经网络与注意力机制的政策文本智能分类方法、系统及存储介质 (57)摘要本发明涉及一种基于双通道神经网络与注意力机制的政策文本智能分类方法，包括以下步骤： S1.对采集得到的政策文本进行文本预处理； S2.将预处理后得到的文本信息通过Word2vec词向量中的Skip ‑gram模型嵌入为词向量； S3.将词向量分别输入至具有注意力机制的CNN神经网络和BILSTM神经网络获取重要局部特征和全局特征； S4.将得到的重要局部特征和全局特征合并得到政策文本信息特征，将得到的政策文本信息特征输入到全连接层神经网络，采用softmax函数计算政策文本的归类概率，得到分类结果。权利要求书2页说明书7页附图4页 CN 115292500 A 2022.11.04 CN 115292500 A 1.基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：包括以下步骤： S1.对采集得到的政策文本进行文本预处理； S2.将预处理后得到的文本信息通过Word2vec词向量中的Skip ‑gram模型嵌入为词向量； S3.将词向量分别输入至具有注意力机制的CNN神经网络和BILSTM神经网络获取重要局部特征和全局特征； S4.将得到的重要局部特征和全局特征合并得到政策文本信息特征，将得到的政策文本信息特征输入到全连接层神经网络，采用softmax函数计算政策文本的归类概率，得到分类结果。 2.根据权利要求1所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S1对采集得到的政策文本进行文本预处理包括依次执行的数据清洗操作、分句操作、分词操作。 3.根据权利要求1所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S2中， Skip ‑gram模型包括有输入层、隐含层以及输出层，预处理后得到的文本信息中，令t时刻的当前词为w(t)；在输入层将当前词w(t)的one ‑hot向量输入，通过隐藏层对当前词w(t)的one ‑hot向量加权，最终在输出层得到当前词w(t)的上下文词汇；将词语映射为具有d维的词向量，记为w(t ‑2)、 w(t‑1)、 w(t+1)、 w(t+2)， Skip ‑gram模型的目标函数的数学表达式为：其中Context( ·)为求取当前词w(t)的上下文词汇， LSkip‑gram为Skip‑gram模型根据当前词w(t)预测上下文词汇的输出概率；将具有d维词向量的文本信息输入词嵌入层，得到词向量A＝{x1,x2,...,xn}； n为政策文本的长度。 4.根据权利要求3所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S3中，将词向量输入至BI LSTM神经网络获取全局特征，具体包括： BILSTM神经网络包括正向的LSTM和逆向的LSTM；将词向量A＝{x1,x2,...,xn}作为正向的LSTM和逆向的LSTM的输入，经过正向的LSTM和逆向的LSTM的处理；对于词向量xi，分别进行由左至右和由右至左的前后两个方向的序列特征读取，得到隐藏层中的正向信息特征h1i和逆向信息特征h2i，对正向信息特征h1i和逆向信息特征h2i进行整合拼接得到[h1i,h2i]，表示为hi；词向量A＝{x1,x2,...,xn}得到的全局特征为H＝[h1,h2,...,hn]。 5.根据权利要求4所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S3中，将词向量输入至具有注意力机制的CNN神经网络获取重要局部特征，包括：令当前的状态特征为Queryi，当前状态中序列的其他特征为Keyi；根据能量函数E计算出当前状态特征与其他特征的相关重要程度；权　利　要　求　书 1/2 页 2 CN 115292500 A 2采用softmax函数计算当前状态特征与序列其他特征的相关程度系数gi；将当前状态特征的能量函数Ei与当前特征的相关程度系数gi相乘，得到特征的全局重要程度Ci；选取全局重要程度最大的特征Query，采用卷积神经网络将全局重要程度最大的特征 Query进行提取，记为 Qi， Qi经过卷积操作处理后得到Di，将Di作为重要局部特征。 6.根据权利要求5所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S4中，将得到的重要局部特征和全局特征合并得到政策文本信息特征，具体表示为： 7.根据权利要求6所述的基于双通道神经网络与注意力机制的政策文本智能分类方法，其特征在于：所述步骤S4中，采用softmax函数计算政策文本的归类概率，包括： p＝softmax(wsL+bs) 其中， ws为softmax函数中的权重矩阵， bs为softmax函数中的偏置项， p为政策文本的归类概率。 8.基于双通道神经网络与注意力机制的政策文本智能分类系统，其特征在于：包括文本预处理模块、词向量生成模块、特征获取模块及分类模块；文本预处理模块用于对采集得到的政策文本进行文本预处理；词向量生成模块用于将预处理后得到的文本信息通过Word2vec词向量中的Skip ‑gram 模型嵌入为词向量；特征获取模块用于将词向量分别输入至具有注意力机制的CNN神经网络和BILSTM神经网络获取重要局部特征和全局特征；分类模块用于将得到的重要局部特征和全局特征合并得到政策文本信息特征，将得到的政策文本信息特征输入到全连接层神经网络，采用softmax函数计算政策文本的归类概率，得到分类结果。 9.一种存储介质，包括存储器及处理器，所述存储器内存储有程序，其特征在于：所述程序被所述处理器执行时，执行权利要求1 ‑7任一项所述基于双通道神经网络与注意力机制的政策文本智能分类方法的方法步骤。权　利　要　求　书 2/2 页 3 CN 115292500 A 3

专利 基于双通道神经网络与注意力机制的政策文本智能分类方法、系统及存储介质

专利基于双通道神经网络与注意力机制的政策文本智能分类方法、系统及存储介质