专利 企业评估处理的方法、装置及服务器

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211057768.3 (22)申请日 2022.08.31 (71)申请人建信金融科技有限责任公司地址 200120 上海市自由贸易试验区银城路99号12层、 15层 (72)发明人王婷玉　张晨　陈达纲　李昱　王全礼　张圳　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师王潇　刘芳 (51)Int.Cl. G06Q 10/06(2012.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01)G06K 9/62(2022.01) (54)发明名称企业评估处理的方法、装置及服务器 (57)摘要本申请提供了一种企业评估处理的方法、装置及服务器，涉及自然语言处理技术领域。该企业评估处理的方法使用文本特征向量的信息熵、文本特征向量与所属的文本特征向量的集合的聚类中心的相似度、文本特征向量与所属的文本特征向量的集合中其他文本特征向量的差异性，确定各组企业的文本特征向量的价值，并选择价值排序前N的文本特征向量训练的分类模型，来精确地确定待评估的企业的类别。如此，后续根据企业的类别进行评估处理的评估结果的可靠性也高。权利要求书2页说明书10页附图3页 CN 115471055 A 2022.12.13 CN 115471055 A 1.一种企业评估处理的方法，其特征在于，应用于服务器，所述方法包括：所述服务器获取评估请求，所述评估请求包括待评估的企业；所述服务器根据所述评估请求，获取所述待评估的企业的文本特征向量，其中，所述待评估的企业的文本特征向量是从所述企业的经营范围和/或所述企业的专利信息中获取的；所述服务器采用预训练的分类模型对所述待评估的企业的文本特征向量进行分类，以确定所述待评估的企业的类别，其中，所述企业的类别为绿色企业或非绿色企业，所述分类模型是从各组企业的文本特征向量的集合中，选择价值排序前N的文本特征向量标注所述企业的类别，并将所述排序前N的文本特征向量作为输入数据、所述企业的类别作为输出数据，对初始训练网络进行训练得到的，且任一所述文本特征向量的价值是：根据所述文本特征向量的信息熵、所述文本特征向量与所属的文本特征向量的集合的聚类中心的相似度、所述文本特征向量与所属的文本特征向量的集合中其他所述文本特征向量的差异性进行加权求和得到的；所述服务器获取与所述待评估的企业的类别对应的评估模式，并根据所述评估模式，对所述待评估的企业进行评估处理。 2.根据权利要求1所述的方法，其特征在于，任一所述文本特征向量的价值是根据所述信息熵H(x)、所述相似度I(x)、所述差异性D(x)，采用算式Q(x)＝H(x)λ×I(x)μ×D(x)(1‑λ‑μ ) 得到的，其中， Q(x)为价值， λ， μ分别为权重， λ， μ∈[0， 1]且 λ + μ≤1。 3.根据权利要求2所述的方法，其特征在于，所述信息熵H(x)是根据算式H(x)＝ ‑∑ip (yi|x)logp(yi|x)得到的，其中， p(yi|x)为文本特征向量x属于企业的类别yi的概率，企业的类别yi包括绿色企业和非绿色企业，所述企业的类别yi是将文本特征向量x 输入到初始的分类模型后输出的，所述初始的分类模型是将小于预设数量的被标注企业的类别的文本特征向量，输入到所述初始训练网络进行训练得到的。 4.根据权利要求2或3所述的方法，其特征在于，所述相似度I(x)是根据算式得到的，其中， K为每组企业的文本特征向量的集合被聚类后的簇的个数， x(k)代表第k个簇的聚类中心的特征向量， x为文本特征向量。 5.根据权利要求2或3所述的方法，其特征在于，所述差异性D(x)是根据算式得到的，其中， xm为第m个文本特征向量， xj为同一组企业的文本特征向量的集合中除所述第m个文本特征向量以外的第j个文本特征向量， U为同一组企业的文本特征向量的集合， n为同一组企业的文本特征向量的集合中所述文本特征向量的个数， sm为同一组企业的文本特征向量的集合中各所述文本特征向量的模长的标准差。 6.根据权利要求1所述的方法，其特征在于，所述服务器根据所述评估请求，获取所述待评估的企业的文本特征向量，包括：所述服务器确定预设的描述绿色企业和非绿色企业的关键词的文本中的每个关键词，在所述企业的经营范围和/或所述企业的专利信息中的布尔词频、词性占比、以及文本长度权　利　要　求　书 1/2 页 2 CN 115471055 A 2与所述企业的经营范围和/或所述企业的专利信息中最长的词语的文本长度的比例；所述服务器基于算式CF＝WF(w)*[POS(w)+WL(w)]，对所述描述绿色企业和非绿色企业的关键词的文本中的每个关键词进行处理，得到所述待评估的企业的文本特征向量，其中， CF为所述待评估的企业的文本特征向量中的关键词的特征向量， POS(w)为所述词性占比、 WL(w)为所述关键词的文本长度与所述企业的经营范围和 /或所述企业的专利信息中最长的词语的文本长度的比例。 7.根据权利要求1所述的方法，其特征在于，所述待评估的企业的文本特征向量还包括用于描述企业的专利名称的主题特征。 8.根据权利要求7所述的方法，其特征在于，所述主题特征是基于潜在狄利克雷分布 LDA的主题特征提取模型提取的，其中，所述主题特征L的表达式为L＝[ l1， l2， l3...， lt]，其中， t为所述主题特征的维度， lt为所述专利名称在第t个主题下的概率。 9.一种企业的评估处理装置，其特征在于，应用于服务器，所述装置包括：请求获取单元，用于获取评估请求，所述评估请求中包括待评估的企业；文本获取单元，用于根据所述评估请求，获取所述待评估的企业的文本特征向量，其中，所述待评估的企业的文本特征向量是从所述企业的经营范围和/或所述企业的专利信息中获取的；企业分类单元，用于采用预训练的分类模型对所述待评估的企业的文本特征向量进行分类，以确定所述待评估的企业的类别，其中，所述企业的类别为绿色企业或非绿色企业，所述分类模型是从各组企业的文本特征向量的集合中，选择价值排序前N的文本特征向量标注所述企业的类别，并将所述排序前N的文本特征向量作为输入数据、所述企业的类别作为输出数据，对初始训练网络进行训练得到的，且任一所述文本特征向量的价值是：根据所述文本特征向量的信息熵、所述文本特征向量与所属的文本特征向量的集合的聚类中心的相似度、所述文本特征向量与所属的文本特征向量的集合中其他所述文本特征向量的差异性进行加权求和得到的；企业评估单元，用于获取与所述待评估的企业的类别对应的评估模式，并根据所述评估模式，对所述待评估的企业进行评估处理。 10.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得所述服务器执行如权利要求1至8任一项所述的方法。 11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得计算机执行如权利要求1至8任一项所述的方法。 12.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被运行时，使得计算机执行如权利要求1至8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115471055 A 3

专利 企业评估处理的方法、装置及服务器

专利企业评估处理的方法、装置及服务器