一种联邦统计Pearson相关性的方法、介质及系统与流程

xiaoxiao13天前  14


本发明属于联邦统计,具体而言,涉及一种联邦统计pearson相关性的方法、介质及系统。


背景技术:

1、在当前大数据时代,海量多源异构数据的汇聚和分析已成为推动科技创新和实现智能化决策的重要动力。利用机器学习等人工智能技术从大数据中提炼洞见和规律,已广泛应用于金融风控、智能制造、医疗健康、智能交通等诸多领域。在机器学习特征工程过程中,常常需要探索特征之间以及特征与目标之间的相关性,并据此进行特征筛选和构建。pearson相关系数是度量两个变量线性相关程度的重要统计量,广泛应用于金融股指分析、医疗影像分析、制程工艺优化等领域。现有统计pearson相关系数的算法通常采用集中式计算模式,即所有样本数据汇总在单一服务器上进行集中处理,得到最终相关性结果。该模式存在以下不足:

2、1)数据隐私性差。单一服务器掌握所有原始数据样本,存在数据窃取和滥用的风险。对于涉及个人隐私、商业机密等敏感信息的特殊场景,集中式计算难以满足隐私保护要求。

3、2)计算效率低下。海量数据的集中存储和处理,需要高性能计算资源和存储资源作为支撑,投入成本高昂。另外中心节点易成为系统瓶颈,难以适应规模扩展。

4、3)数据孤岛难题。各数据源由于技术和商业因素无法打通,无法汇聚到统一入口,造成数据资产闲置和价值无法释放。

5、因此,针对敏感数据、隐私数据的特征相关性分析,亟需创新性算法来解决上述技术挑战。

6、近年来,随着密码学理论和分布式系统技术的发展,联邦学习(federatedlearning)应运而生,为解决隐私计算难题提供了有力工具。联邦学习是一种分布式的机器学习方法,主要特点是多方参与、保护数据隐私。每个参与方在本地对自有数据进行模型训练,然后运用加密技术聚合各方模型参数,最终形成全局模型。在整个过程中,各参与方的原始数据均保存在本地,不出域共享,从而有效规避了隐私泄露风险。联邦学习的核心技术之一是安全多方计算,通过密码学工具(如同态加密、秘密分享等)实现多方在不泄露输入数据的前提下,共同完成数据计算或函数评估的目的。秘密分享作为smpc的基础技术之一,可将原始秘密数据分成多份独立的秘密分片,单个或少数分片无法推导出秘密。只有获取到足够多的分片才能通过重构算法重新获得原始秘密。该技术为隐私保护数据计算提供了新的可能性。

7、当前,安全多方计算技术已在金融交易、医疗保险等领域取得一些应用,但在特征工程等机器学习环节仍处于起步阶段。现有的隐私计算框架如何与通用的特征相关性分析算法相结合,既能保护数据隐私,又能满足分析质量和效率要求,是一个亟待解决的技术难题。


技术实现思路

1、有鉴于此,本发明提供一种联邦统计pearson相关性的方法、介质及系统,能够解决现有的隐私计算框架难以实现与通用的特征相关性分析算法相结合,做到既能保护数据隐私又能满足分析质量和效率要求的技术问题。

2、本发明是这样实现的:

3、本发明的第一方面提供一种联邦统计pearson相关性的方法,其中,包括以下步骤:

4、s10、发起方a输入本方特征数据xa,参与方b输入本方特征数据xb;

5、s20、发起方a计算本方特征xa之间的pearson相关性系数pa,参与方b计算本方特征xb之间的pearson相关性系数pb,并将pb同步给发起方a;

6、s30、发起方a将本方特征数据xa进行秘密分享,生成秘密分片xa_share1和xa_share2,保留xa_share1,将xa_share2发送给参与方b;参与方b将本方特征数据xb进行秘密分享,生成秘密分片xb_share1和xb_share2,保留xb_share1,将xb_share2发送给发起方a;

7、s40、发起方a根据xa_share1和xb_share2计算特征之间的秘密分享态相关系数pab_share1;参与方b根据xa_share2和xb_share1计算特征之间的秘密分享态相关系数pab_share2;

8、s50、发起方a根据pab_share1和pab_share2,通过秘密分享解密操作得到发起方a特征xa和参与方b特征xb之间的明文pearson相关性系数pab;

9、s60、发起方a根据pa、pb和pab整合得到发起方a和参与方b所有特征之间的pearson相关性系数p。

10、其中,所述步骤s10具体包括:发起方a输入本方特征数据集合{xa},参与方b输入本方特征数据集合{xb},其中{xa}表示发起方a一组包含na个特征的特征向量集合,即xai表示发起方a的第i个特征向量,为ma维列向量;{xb}表示参与方b一组包含nb个特征的特征向量集合,即xbi表示参与方b的第i个特征向量,为mb维列向量,其中ma=mb。

11、所述发起方a输入的本方特征数据集合{xa}包括取自ma个样本的na个特征向量每个特征向量xai为ma维列向量所述参与方b输入的本方特征数据集合{xb}包括取自mb个样本的nb个特征向量每个特征向量xbi为mb维列向量所述步骤s20中,对于发起方a的第i个特征向量xai,计算其均值对于发起方a的第j个特征向量xaj,计算其均值其中k为样本索引,取值范围1≤k≤ma。

12、其中,所述步骤s20具体包括:发起方a计算本方特征{xa}之间的pearson相关性系数pa,参与方b计算本方特征{xb}之间的pearson相关性系数pb,计算过程为:对于发起方a的任意两个特征向量xai和xaj,计算它们之间的pearson相关系数rij;将所有rij组成na×na矩阵pa;参与方b计算pb的方式类似;最后参与方b将pb同步给发起方a。

13、所述步骤s20中,参与方b计算本方特征{xb}之间的pearson相关性系数pb的过程与发起方a计算pa的过程类似。

14、进一步的,和分别为xai和xaj的均值。

15、其中,所述步骤s30具体包括:发起方a对{xa}进行秘密分享,得到两个秘密分片xa_share1和xa_share2,使得{xa}=xa_share1+xa_share2,+表示密码分享运算,发起方a保留xa_share1不公开,将xa_share2发送给参与方b;参与方b对{xb}进行秘密分享,得到两个秘密分片xb_share1和xb_share2,使得{xb}=xb_share1+xb_share2,+表示密码分享运算,参与方b保留xb_share1不公开,将xb_share2发送给发起方a。

16、所述秘密分享算法满足:只有获取全部的秘密分片才能重构出原始秘密,单个或少数分片泄露无法推导出原始秘密。所述步骤s30采用shamir秘密分享算法或additive秘密分享算法对特征数据进行秘密分享。

17、其中,所述步骤s40具体包括:发起方a根据xa_share1和xb_share2计算特征之间的秘密分享态相关系数pab_share1,过程为:对于发起方a的每个特征向量xai_share1和参与方b的每个特征向量xbj_share2,计算它们之间的秘密分享态pearson相关系数rij_share;将所有rij_share组成na×nb矩阵pab_share1;参与方b以类似方式计算na×nb矩阵pab_share2。

18、所述步骤s40中,计算秘密分享态pearson相关系数rij_share的公式进一步包括:将发起方a所有rij_share组成na×nb相关性矩阵pab_share1;将参与方b所有rijshare组成na×nb相关性矩阵pab_share2。所述步骤s40中,对于发起方a的第i个特征向量的秘密分片xai_share1,计算其均值对于参与方b的第j个特征向量的秘密分片xbj_share2,计算其均值

19、进一步的,和分别为xai_share1和xbj_share2的均值。

20、其中,所述步骤s50具体包括:发起方a根据pab_share1和pab_share2,通过秘密分享解密操作得到发起方a特征{xa}和参与方b特征{xb}之间的明文pearson相关性系数矩阵pab,即pab=pab_share1+pab_share2,式中+表示密码分享运算;

21、所述步骤s60具体包括:发起方a先构建一个(na+nb)×(na+nb)全0矩阵p;将pa放入p的左上角;将pb放入p的右下角;将pab放入p的右上角;将pab的转置矩阵放入p的左下角;由此获得包含发起方a和参与方b所有特征之间pearson相关性系数的矩阵p。

22、所述步骤s50中的秘密分享解密操作的具体算法取决于步骤s30采用的秘密分享算法:,如果步骤s30采用的是shamir秘密分享算法,则步骤s50对应地采用shamir秘密分享解密算法进行解密操作;,如果步骤s30采用的是additive秘密分享算法,则步骤s50对应地采用求和重构的方式进行解密操作。

23、本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种联邦统计pearson相关性的方法。

24、本发明的第三方面提供一种联邦统计pearson相关性的系统,其中,包含上述的计算机可读存储介质。

25、与现有技术相比较,本发明提供的一种联邦统计pearson相关性的方法、介质及系统的有益效果是:

26、1)保护数据隐私。本发明方法中,各参与方仅向外共享经过秘密分享加密的分片数据,无需暴露原始特征值,从根本上消除了隐私泄露风险。即使部分分片被恶意窃取,也无法从中推导出完整的原始数据。

27、2)避免引入第三方。本发明不需要任何可信的第三方中介机构参与计算,避免了由此带来的隐私和成本开销。各参与方在自身节点上进行本地计算,符合联邦学习"数据不出域"的核心理念。

28、3)降低计算开销。相比单一中心节点的集中式计算,本发明利用分布式计算模型,将计算压力分散到各参与方节点,降低了对单台服务器的计算资源需求,提高了算法的可扩展性。

29、4)无需预先共享参与方标识。本发明方案不需要参与方之间预先交换身份识别信息,相比现有类似算法,模型假设更加简洁,免去了预先认证环节带来的额外开销。

30、因此,本发明的方法解决了现有的隐私计算框架难以实现与通用的特征相关性分析算法相结合,做到既能保护数据隐私又能满足分析质量和效率要求的技术问题。


技术特征:

1.一种联邦统计pearson相关性的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种联邦统计pearson相关性的方法,其特征在于,所述步骤s10具体包括:发起方a输入本方特征数据集合{xa},参与方b输入本方特征数据集合{xb},其中{xa}表示发起方a一组包含na个特征的特征向量集合,即xai表示发起方a的第i个特征向量,为ma维列向量;{xb}表示参与方b一组包含nb个特征的特征向量集合,即xbi表示参与方b的第i个特征向量,为mb维列向量,其中ma=mb。

3.根据权利要求1所述的一种联邦统计pearson相关性的方法,其特征在于,所述步骤s20具体包括:发起方a计算本方特征{xa}之间的pearson相关性系数pa,参与方b计算本方特征{xb}之间的pearson相关性系数pb,计算过程为:对于发起方a的任意两个特征向量xai和xaj,计算它们之间的pearson相关系数rij;将所有rij组成na×na矩阵pa;参与方b计算pb的方式类似;最后参与方b将pb同步给发起方a。

4.根据权利要求3所述的一种联邦统计pearson相关性的方法,其特征在于,和分别为xai和xaj的均值。

5.根据权利要求1所述的一种联邦统计pearson相关性的方法,其特征在于,所述步骤s30具体包括:发起方a对{xa}进行秘密分享,得到两个秘密分片xa_share1和xa_share2,使得{xa}=xa_share1+xa_share2,式中+表示密码分享运算,发起方a保留xa_share1不公开,将xa_share2发送给参与方b;参与方b对{xb}进行秘密分享,得到两个秘密分片xb_share1和xb_share2,使得{xb}=xb_share1+xb_share2,式中+表示密码分享运算,参与方b保留xb_share1不公开,将xb_share2发送给发起方a。

6.根据权利要求1所述的一种联邦统计pearson相关性的方法,其特征在于,所述步骤s40具体包括:发起方a根据xa_share1和xb_share2计算特征之间的秘密分享态相关系数pab_share1,过程为:对于发起方a的每个特征向量xai_share1和参与方b的每个特征向量xbj_share2,计算它们之间的秘密分享态pearson相关系数rij_share;将所有rij_share组成na×nb矩阵pab_share1;参与方b以类似方式计算na×nb矩阵pab_share2。

7.根据权利要求6所述的一种联邦统计pearson相关性的方法,其特征在于,和分别为xai_share1和xbj_share2的均值。

8.根据权利要求1所述的一种联邦统计pearson相关性的方法,其特征在于,所述步骤s50具体包括:发起方a根据pab_share1和pab_share2,通过秘密分享解密操作得到发起方a特征{xa}和参与方b特征{xb}之间的明文pearson相关性系数矩阵pab,即pab=pab_share1+pab_share2,式中+表示密码分享运算;

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行权利要求1-8任一项所述的一种联邦统计pearson相关性的方法。

10.一种联邦统计pearson相关性的系统,其特征在于,包含权利要求9所述的计算机可读存储介质。


技术总结
本发明提供了一种联邦统计Pearson相关性的方法、介质及系统,属于联邦统计技术领域,核心是将秘密分享技术与Pearson相关系数计算相结合,具体包括:发起方和参与方首先分别计算本地特征间的相关性;然后对本地特征数据进行秘密分享加密,生成分片数据并相互交换部分分片;之后利用加密分片数据计算特征间的秘密分享态相关性;最后通过秘密分享解密技术,由发起方重构获得各方特征间的明文相关性矩阵。整个过程无需引入第三方,各参与方原始数据均保存在本地;同时计算压力分散到多方节点,降低单点压力。该方法创新性地将Pearson相关性分析引入隐私计算范畴,为联邦学习场景下的特征工程提供了隐私保护的技术手段。

技术研发人员:杨超,张英杰,朱振超,胡四化
受保护的技术使用者:蓝象智联(杭州)科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)