(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211057768.3
(22)申请日 2022.08.31
(71)申请人 建信金融科技有限责任公司
地址 200120 上海市自由贸易试验区银城
路99号12层、 15层
(72)发明人 王婷玉 张晨 陈达纲 李昱
王全礼 张圳
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 王潇 刘芳
(51)Int.Cl.
G06Q 10/06(2012.01)
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/284(2020.01)G06K 9/62(2022.01)
(54)发明名称
企业评估处 理的方法、 装置及服 务器
(57)摘要
本申请提供了一种企业评估处理的方法、 装
置及服务器, 涉及自然语言处理技术领域。 该企
业评估处理的方法使用文本特征向量的信息熵、
文本特征向量与所属的文本特征向量的集合的
聚类中心的相似度、 文本特征向量与所属的文本
特征向量的集合中其他文本特征向量的差异性,
确定各组企业的文本特征向量的价值, 并选择价
值排序前N的文本特征向量训练的分类模型, 来
精确地确定待评估的企业的类别。 如此, 后续根
据企业的类别进行评估处理的评估结果的可靠
性也高。
权利要求书2页 说明书10页 附图3页
CN 115471055 A
2022.12.13
CN 115471055 A
1.一种企业评估处 理的方法, 其特 征在于, 应用于服 务器, 所述方法包括:
所述服务器获取评估请求, 所述评估请求包括待评估的企业;
所述服务器根据 所述评估请求, 获取所述待评估的企业的文本特征向量, 其中, 所述待
评估的企业的文本特征向量是从所述企业的经营范围和/或所述企业的专利信息中获取
的;
所述服务器采用预训练 的分类模型对所述待评估的企业的文本特征向量进行分类, 以
确定所述待评估的企业的类别, 其中, 所述 企业的类别为绿色企业或非绿色企业, 所述分类
模型是从各组企业的文本特征向量的集合中, 选择价值排序前N的文本特征向量标注所述
企业的类别, 并将所述排序前N的文本特征向量作为输入数据、 所述 企业的类别作为输出数
据, 对初始训练网络进 行训练得到的, 且任一所述文本特征向量的价值是: 根据所述文本特
征向量的信息熵、 所述文本特征向量与所属的文本特征向量的集合的聚类中心的相似度、
所述文本特征向量与所属的文本特征向量的集合中其他所述文本特征向量的差异性进行
加权求和得到的;
所述服务器获取与所述待评估的企业的类别对应的评估模式, 并根据所述评估模式,
对所述待评估的企业进行评估处 理。
2.根据权利要求1所述的方法, 其特征在于, 任一所述文本特征向量的价值是根据 所述
信息熵H(x)、 所述相似度I(x)、 所述差异性D(x), 采用算式Q(x)=H(x)λ×I(x)μ×D(x)(1‑λ‑μ )
得到的, 其中, Q(x)为 价值, λ, μ分别为权 重, λ, μ∈[0, 1]且 λ + μ≤1。
3.根据权利要求2所述的方法, 其特征在于, 所述信息熵H(x)是根据算式H(x)= ‑∑ip
(yi|x)logp(yi|x)得到的, 其中, p(yi|x)为文本特征向量x属 于企业的类别yi的概率, 企业
的类别yi包括绿色企业和非绿色企业, 所述企业的类别yi是将文本特征向量x 输入到初始的
分类模型后输出的, 所述初始的分类模型是将小于预设数量的被标注企业的类别的文本特
征向量, 输入到所述初始训练网络进行训练得到的。
4.根据权利要求2或3所述的方法, 其特征在于, 所述相似度I(x)是根据算式
得到的, 其中, K为每组企业的文本特征向量的集合被聚类后
的簇的个数, x(k)代表第k个簇的聚类中心的特 征向量, x为文本特 征向量。
5.根据权利要求2或3所述的方法, 其特征在于, 所述差异性D(x)是根据算式
得到的, 其 中, xm为第m个文本特征向量, xj为同一组企
业的文本特征向量的集合中除所述第m个文本特征向量以外的第j个文本特征向量, U为同
一组企业的文本特征向量的集合, n为同一组企业的文本特征向量的集合中所述文本特征
向量的个数, sm为同一组企业的文本特征向量的集合中各所述文本特征向量的模长的标准
差。
6.根据权利要求1所述的方法, 其特征在于, 所述服务器根据所述评估请求, 获取所述
待评估的企业的文本特 征向量, 包括:
所述服务器确定预设的描述绿色企业和非绿色企业的关键词的文本 中的每个关键词,
在所述企业的经营范围和/或所述 企业的专利信息中的布尔词频、 词性占比、 以及文本长度权 利 要 求 书 1/2 页
2
CN 115471055 A
2与所述企业的经 营范围和/或所述企业的专利 信息中最长的词语的文本 长度的比例;
所述服务器基于算式CF=WF(w)*[POS(w)+WL(w)], 对所述描述绿色企业和非绿色企业
的关键词的文本中的每个关键词进行 处理, 得到所述待评估的企业的文本特征向量, 其中,
CF为所述待评估的企业的文本特征向量中的关键词的特征向量, POS(w)为所述词 性占比、
WL(w)为所述关键词的文本长度与所述企业的经营范围和 /或所述企业的专利信息中最长
的词语的文本 长度的比例。
7.根据权利要求1所述的方法, 其特征在于, 所述待评估的企业的文本特征向量还包括
用于描述企业的专利名称的主题特 征。
8.根据权利要求7所述的方法, 其特征在于, 所述主题特征是基于潜在狄利克雷分布
LDA的主题 特征提取模型提取的, 其中, 所述主题 特征L的表达式为L=[ l1, l2, l3..., lt], 其
中, t为所述主题特 征的维度, lt为所述专利名称在第t个主题下的概 率。
9.一种企业的评估处 理装置, 其特 征在于, 应用于服 务器, 所述装置包括:
请求获取 单元, 用于获取评估请求, 所述评估请求中包括待评估的企业;
文本获取单元, 用于根据所述评估请求, 获取所述待评估的企业的文本特征向量, 其
中, 所述待评估的企业的文本特征向量是从所述企业的经营范围和/或所述企业的专利信
息中获取的;
企业分类单元, 用于采用预训练的分类模型对所述待评估的企业的文本特征向量进行
分类, 以确定所述待评估的企业的类别, 其中, 所述企业的类别为绿色企业或非绿色企业,
所述分类模型是从各组企业的文本特征向量的集合中, 选择价值排序前N的文本特征向量
标注所述企业的类别, 并将所述排序前N的文本特征向量作为输入数据、 所述 企业的类别作
为输出数据, 对初始训练网络进 行训练得到的, 且任一所述文本特征向量的价值是: 根据所
述文本特征向量的信息熵、 所述文本特征向量与所属的文本特征向量的集合的聚类中心的
相似度、 所述文本特征向量与所属的文本特征向量的集合中其他所述文本特征向量的差异
性进行加权求和得到的;
企业评估单元, 用于获取与所述待评估的企业的类别对应的评估模式, 并根据所述评
估模式, 对所述待评估的企业进行评估处 理。
10.一种服务器, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时, 使 得所述服务器执行如
权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时, 使得计算机执 行如权利要求1至8任一项所述的方法。
12.一种计算机程序产品, 其特征在于, 包括计算机程序, 当所述计算机程序被运行时,
使得计算机执 行如权利要求1至8任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115471055 A
3
专利 企业评估处理的方法、装置及服务器
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 02:13:26上传分享