(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211157420.1
(22)申请日 2022.09.22
(71)申请人 太保科技有限公司
地址 200010 上海市黄浦区中山 南路1号1 1
层(名义楼层)1 1V6室
(72)发明人 高超
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 张志梅
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/35(2019.01)
G06F 16/583(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 30/19(2022.01)
G06V 30/413(2022.01)
(54)发明名称
一种文档影 像分类方法和装置
(57)摘要
本申请提供了一种文档影像分类方法和装
置, 在该方法中, 首先, 根据文档影像中的文本和
所述文本对应的空间位置索引得到文本特征序
列和文本布局特征序列; 其次, 根据所述文档影
像中的图像和所述图像对应的空间位置索引得
到图像特征序列和图像布局特征序列; 然后, 将
所述文本布局特征序列与文本特征序列、 所述图
像布局特征序列与图像特征序列进行特征融合
后, 得到全局特征序列; 最后, 根据所述全局特征
序列对所述文档影像进行分类。 该方法不仅利用
文本信息和图像信息, 还利用文档影像的版面布
局信息进行分类, 克服了 现有技术中对版面布局
不同的文档影像类别难以区分的问题, 改善了文
档影像类别的分类效果, 提高了文档影像分类的
准确性。
权利要求书2页 说明书7页 附图4页
CN 115544200 A
2022.12.30
CN 115544200 A
1.一种文档影 像分类方法, 其特 征在于, 所述方法包括:
根据文档影像 中的文本得到文本特征序列, 将所述文本对应的空间位置索引映射为多
个特征向量, 得到文本布局特 征序列;
将所述文本布局特 征序列与文本特 征序列相结合, 得到第一特 征序列;
根据所述文档影像中的图像得到图像特征序列, 将所述图像对应的空间位置索引映射
为多个特 征向量, 得到图像布局特 征序列;
将所述图像布局特 征序列与图像特 征序列相结合, 得到第二特 征序列;
对所述第一特 征序列和所述第二特 征序列进行处 理, 得到全局特 征序列;
根据所述全局特 征序列对所述文档影 像进行分类。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一特征序列和所述第 二特征
序列进行处 理, 得到全局特 征序列, 包括:
构建一个标准 化的特征向量作为分类标记特 征向量;
将所述分类标记特征向量、 所述第一特征序列和所述第二特征序列进行拼接, 得到局
部特征序列;
将所述局部特征序列输入到用于特征融合的神经网络模型进行处理, 得到全局特征序
列。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述全局特征序列对所述文档影
像进行分类, 包括:
选取所述全局特征序列中的分类标记特征向量, 所述分类标记特征向量经所述用于特
征融合的神经网络模型处 理后融合了分类所需的相关信息;
根据所述分类标记特 征向量对所述文档影 像进行分类。
4.根据权利要求2所述的方法, 其特征在于, 将所述局部特征序列输入到用于特征融合
的神经网络模型进行处 理, 得到全局特 征序列, 包括:
将所述局部特 征序列输入Transformer神经网络模型处 理;
通过Transformer神经网络模型将第一特征序列中的信息和第二特征序列中的信息进
行融合;
通过Transformer神经网络模型将文档影像分类所需的相关信息融合到分类标记特征
向量;
通过Transformer神经网络模型 得到所述全局特 征序列并输出。
5.根据权利要求1所述的方法, 其特征在于, 所述根据文档影像中的文本得到文本特征
序列, 包括:
识别文档影 像中的文字;
将所述文本分成多个分词, 得到预设长度的文本序列;
将所述文本序列的分词映射 为多个特 征向量, 得到文本特 征序列;
所述将所述文本对应的空间位置索引映射为多个特征向量, 得到文本布局特征序列,
包括:
将所述分词的空间位置索引映射 为多个特 征向量, 得到文本布局特 征序列。
6.根据权利要求5所述的方法, 其特 征在于, 所述将所述文本分成多个分词, 包括:
将所述文本进行截断;权 利 要 求 书 1/2 页
2
CN 115544200 A
2对相应的截断文本进行填充, 形成多个分词。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述文档影像中的图像得到图像
特征序列, 包括:
将所述文档影 像的图像分割为多个图块;
将所述图块的信息映射 为多个特 征向量, 得到图像特 征序列;
所述将所述图像对应的空间位置索引映射为多个特征向量, 得到 图像布局特征序列,
包括:
将所述图块对应的空间位置索引映射 为多个特 征向量, 得到图像布局特 征序列。
8.根据权利要求1所述的方法, 其特征在于, 所述将所述文本布局特征序列与文本特征
序列相结合, 包括:
将所述文本布局特征序列与文本特征序列以物理拼接的方式相结合, 其中所述文本布
局特征序列与文本特 征序列中的特 征向量维度相等;
所述将所述图像布局特 征序列与图像特 征序列相结合, 包括:
将所述图像布局特征序列与图像特征序列以物理拼接的方式相结合, 其中, 所述图像
布局特征序列与图像特 征序列中的特 征向量的维度相等。
9.根据权利要求1 ‑8任一项所述的方法, 其特征在于, 所述根据 所述全局特征序列对所
述文档影 像进行分类, 包括:
将所述全局特 征序列输入Softmax分类 器;
Softmax分类 器根据全局特 征序列对所述文档影 像进行分类。
10.一种文档影 像分类装置, 其特 征在于, 所述装置包括:
文本信息获取模块, 用于将根据文档影像中的文本和所述文本对应的空间位置索引映
射为多个特征向量, 获取得到文本特征序列和文本布局特征序列, 将所述文本特征序列和
文本布局特 征序列相结合, 得到第一特 征序列;
图像信息获取模块, 用于将根据文档影像中的图像和所述图像对应的空间位置索引映
射为多个特征向量, 获取得到图像特征序列和图像布局特征序列, 将所述图像特征序列和
所述图像布局特 征序列相结合, 得到第二特 征序列;
全局特征序列获取模块, 用于对第一特征序列和第二特征序列进行处理, 得到全局特
征序列;
分类模块, 用于根据全局特 征序列, 对所述文档影 像进行分类。权 利 要 求 书 2/2 页
3
CN 115544200 A
3
专利 一种文档影像分类方法和装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:12:24上传分享