专利 一种应用于金融场景的隐私XGBoost方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211251314.X (22)申请日 2022.10.13 (71)申请人上海阵方科技有限公司地址 200232 上海市徐汇区丰谷路315弄24 号1-3层 (72)发明人何金广　李升林　 (74)专利代理机构南昌金轩知识产权代理有限公司 36129 专利代理师文珊 (51)Int.Cl. G06F 21/62(2013.01) G06N 20/20(2019.01) G06Q 10/04(2012.01) (54)发明名称一种应用于金融场景的隐私XGBo ost方法 (57)摘要本发明涉及隐私计算技术领域，具体公开了一种应用于金融场景的隐私XGBoost方法步骤 S1，特征工程处理：步骤S2，模型训练，依据特征工程处理的数据进行模型训练；步骤S3，模型预测，利用上述步骤得到的模型对测试集进行预测，在各参与方分别得到预测结果；步骤S4，计算 SHAP，利用XGBoost的模型结构计算SHAP计算 SHAP；步骤S5，模型解释，过秘密分享的SHAP值可对参与方的每个特征进行详细解释。本发明底层基于密码学的安全多方计算框架，不需要可信第三方参与，安全性在数学上可证；本发明在保护数据隐私的情况下对模型做出较全面的解释，对于金融场景有较好的适用性；本发明利用隐私 XGBoost模型的树结构来计算SHAP，计算性能较高。权利要求书3页说明书14页附图1页 CN 115544569 A 2022.12.30 CN 115544569 A 1.一种应用于金融场景的隐私XGBo ost方法，其特征在于，包括如下步骤：步骤S1，特征工程处理：步骤S2，模型训练，依据特征工程处理的数据进行模型训练；步骤S3，模型预测，利用上述步骤得到的模型对测试集进行预测，在各参与方分别得到预测结果；步骤S4，计算SHAP，利用XGBo ost的模型结构计算SHAP计算SHAP；步骤S5，模型解释，过秘密分享的SHAP值可对参与方的每个特征进行详细解释。 2.根据权利要求1所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，在本方法中参与方设置有多个，在方案中对特征不做具体区分，且每个参与方拥有的特征均为数值型，本方法中用X表示特征(N×m矩阵)， xj表示第j个特征， y表示标签即N维向量。 3.根据权利要求2所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，所述步骤S1特征工程处理包括如下步骤： S1.1特征分箱，将特征数据进行通过分箱算法进行分箱处理； S1.2进行WOE编码，标签y的拥有方在本地对特征进行WOE编码计算，其他参与方通过秘密分享的标签y对其特征进行WOE编码； S1.3特征选择，设置IV值的取值范围[L， U]，通过秘密分享选择IV值大于等于L且小于等于U的特征，选择合适的IV值。 4.根据权利要求3所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，所述步骤S1.3特征选择，设置IV值的取值范围[L， U]，通过秘密分享选择IV值大于等于L且小于等于U的特征，选择合适的IV值理的计算详细步骤如下：输入：‑X，特征矩阵 ‑[[y]]，秘密分享的标签向量 ‑U， IV值上限 ‑L， IV值下限输出：秘密分享经过分箱和IV值筛选的特征矩阵[[X′]] 1： X′＝{} 2： forj←1tom do 3： Xj′：＝Bucket(Xj) 4： forb←1tolen(Bin(Xj))do 5： 6： 7： 8： end 8： ifIV(j)≥LandIV(j)≤U 9： Add[[Xj′]]to[[X′]] 8： end 9： return[ [X′]]权　利　要　求　书 1/3 页 2 CN 115544569 A 2其中， X为 N×m矩阵， y为 N维向量， U为常数； L 为常数。 5.根据权利要求1所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，所述步骤S2模型训练详细步骤如下： S2.1初始化将经过特征工程的数据通过秘密分享方式划分为训练集和测试集；定义损失函数，并配置正则化参数；配置树深度；将集成树初始化为空值； S2.2通过秘密分享进行数据交互，包括特征矩阵、特征分箱、标签向量； S2.3将模型结构保存在各参与方。 6.根据权利要求5所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，所述步骤S2模型训练的计算步骤如下：输入：‑[[X]]，秘密分享的训练集特征矩阵， X为R ×k矩阵 ‑[[y]]，秘密分享的训练集标签向量， y为R 维向量 ‑loss，损失函数 ‑λ，正则化参数 ‑T，集成树大小 ‑D，树深度D 输出：集成树ensemble＝{Tre e(1)， Tree(2)，…， Tree(T)}，每棵树包括以下数据：秘密分享的每个非叶子节点 n的阈值选择器秘密分享的每个非叶子节点 n的特征选择器秘密分享的每个叶子节点 l的权重 ‑[[Tree(t)(X)]]，秘密分享的训练集的预测向量 1： 2： ensemble＝{} 3： fort←1toRdo 4： 5： 6： [[Tree(t)]]：＝grow_tree(g(t‑1)， h(t‑1)) 7： Add[[Tree(t)]]to[[ensemble] ] 8： endfor 9： return[ [ensemble] ]。 7.根据权利要求6所述的一种应用于金融场景的隐私XGBoost方法，其特征在于，所述步骤S3模型预测详细步骤如下：输入：‑[[X]]，秘密分享的特征矩阵， X为 N×m矩阵权　利　要　求　书 2/3 页 3 CN 115544569 A 3

专利 一种应用于金融场景的隐私XGBoost方法

专利一种应用于金融场景的隐私XGBoost方法