`
gaozzsoft
  • 浏览: 426065 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

联邦计算&联邦学习研究

 
阅读更多

  联邦学习研究    

 

   随着IT移动化步伐地迈进,互联网数据被割裂为一个个孤岛,制约AI发展的一个瓶颈是保护用户数据隐私和打破不同主体之间数据孤岛的问题。随着移动设备性能的强化,4G/5G的兴起普及,在移动终端上进行模型训练变得可行。2016年,Google团队发布了一篇论文:Communication-Efficient Learning of Deep Networks from Decentralized Data。自此,产业界联邦学习(「Federal Learning」,Google中文命名为联盟学习,国内习惯称为联邦学习)的大幕开启。

 

在数百万不同的智能手机上部署联邦学习,其本质是移动模型,而非移动数据。为避免用户隐私泄露,联邦学习不需要在云端存储用户数据。智能手机下载当前版本的模型,通过学习本地数据来改进模型,并把模型改进增量加密发送到云端,与其他用户的更新即时整合为共享模型,所有的训练数据仍然在各终端用户的设备中,用户数据不会在云端保存。

 

在国际隐私数据条例(GDPR等)趋严的形势下,以Google为代表的ToC业务(如输入法)开辟了一个全新的思路。国内,联邦学习在产业界延伸至ToB领域,解决ToB AI的困局:隐私保护与数据孤岛问题。比如风控、营销等涉及到大规模的用户数据交互,隐私保护价值更高。2019年底,百度、微众、蚂蚁、富数、华控等5家公司,获得了信通院的安全计算证书,是当前安全计算资质中最具影响力的认证。

 

联邦计算核心技术

为联合打通数据孤岛,解决参与方的数据安全可信隐私保护问题,广义的联邦计算「Federated Computing」实现方案包括:以密码学为核心的MPC多方安全计算「Secure Multi-Party Computation」,以及硬件可信执行环境TEE「Trusted Execution Environment」。

 

一、多方安全计算(MPC:Secure Multi-Party Computation)

多方安全计算MPC以密码学为理论基础,采用算法/程序逻辑层面保障计算的安全可信任的基本理念,其安全性是可经过数学公式推导验证的。MPC不依赖于硬件等环境设施,即对各类异构的系统环境有兼容性,不依赖特定硬件。

 

1.混淆电路(Garbled Circuit)

 混淆电路是一种密码学协议。图灵奖得主姚期智院士在1982提出著名的Yao's Millionaires' Problem,并给出了基于混淆电路的解决方案。该问题是Alex和Bob在无可信第三方,且不告知对方财富值的情况下比谁更富有。

 

其原理为:所有可计算的函数问题都可转换为不同的电路,由加法电路、乘法电路、移位电路、选择电路等表示。而电路本质上由门(gate)组成,逻辑门包括与门、非门、或门、与非门等。混淆电路把这些门进行加密和打乱来掩盖信息。Alice用密钥加密门的真值表并打乱后输出给Bob。Bob对真值表的每行进行解密,算法保障只有一行可解密成功,并提取结果。最后Bob将结果同步给Alice。过程中,二者交换的都是随机数或密文,无隐私数据泄露,但从程序逻辑层面完成了所需业务的计算。

 

2.秘密分享(Secret Sharing)

 秘密共享(也称为秘密分割)是指用于在一组参与者之间分发秘密的方法,每个参与者被分配一个秘密的份额。只有当足够数量的不同类型的份额组合在一起时,才能重建秘密,个人份额本身无意义。

 

3.同态分享(HE:Homomorphic Encryption) 

同态加密的概念早在1978年在银行应用背景下被提出,作者是RSA算法中的R(Ron Rivest) 和A(Leonard Adleman)以及Michael L. Dertouzos。对于同态加密的概念引用同态加密大牛Craig Genty的定义:

 「A way to delegate processing of your data, without giving a way access to it.」

 即使用者可以在不接触原数据的情况下进行数据处理。其本质是:使用方直接处理密文,然后解密密文得到的明文结果与直接处理明文得到结果等价。精巧之处在于,数据的处理方并不知道数据的明文,却最终计算得到业务期望的结果,即数据提供方未泄露其原始数据,有效保护数据隐私。

 

二、硬件可信执行技术环境(TEE:Trusted Execution Environment)

可信执行环境(TEE)是主处理器的安全区域。它保证内部加载的代码和数据在机密性和完整性方面受到保护。TEE作为独立执行环境,可提供各种安全功能:如隔离执行,应用程序的完整性,以及其资产的机密性。其保障安全的核心机制是:指令集扩展, 旨在以硬件安全为强制性保障, 不依赖于固件和软件的安全状态。

 

联邦学习分类

联邦学习定义为:在进行机器学习的过程中,各参与方可以借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。联邦学习可以分为三类:

 

「横向联邦学习」

横向联邦学习(基于用户纬度切分)适用于两个数据集共享相同的特征空间但样本ID空间不同的情况。使用双方用户特征相同但用户不完全相同的数据进行训练。

 

「纵向联邦学习」

纵向联邦学习(基于特征纬度切分)适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

 

「联邦迁移学习」

联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。该场景下,不对数据进行切分,而可以利用迁移学习来克服数据或者标签不足的情况。

 

 

联邦计算

基于MPC、TEE、FL和DP 等技术的多方联合计算平台,为跨机构数据流通提供“可用不可见,相逢不相识”的极致安全体验。 可以解决金融、政府、医疗、互联网等客户在联合风控、联合营销、联合分析等场景的数据安全和隐私保护需求,实现数据价值极大释放

 

联邦分析

支持相关性分析、密文统计、联合分析,可对接大数据平台,实现密文数据分析

 

联邦学习

各参与方无需共享或交换各自敏感数据的情况下进行联合建模,支持横向联邦学习、纵向联邦学习常见模式。内置 LR、GBDT、DNN 等机器学习算法,支持基于 DSL 的算法自定义开发

 

分享到:
评论

相关推荐

    联邦学习场景应用研究报告(2022年).pdf

    联邦学习场景应用研究报告(2022年) 本报告由中国信息通信研究院发布,旨在深入探讨联邦学习技术在政务、医疗、金融、广告、物流等领域的应用价值。以下是报告中提到的重要知识点: 1. 联邦学习简介: 联邦学习...

    联邦学习介绍(ppt)

    联邦学习介绍 作为人工智能和机器学习的核心技术,联邦学习旨在解决数据孤岛问题,保护数据隐私和安全,同时实现高效、准确的机器学习模型训练。下面是联邦学习的详细介绍: 1. 什么是人工智能? 人工智能...

    联邦学习-杨强1

    联邦学习的实现涉及多个关键技术,包括通信效率优化、模型压缩、异步更新策略等,以适应分布式环境中的计算和通信限制。同时,为了确保模型性能,还需要研究如何处理非独立同分布(Non-IID)数据,以及如何在联邦...

    “联邦学习 区块链”多方安全计算引擎系统研究.pdf

    本文研究的“联邦学习+区块链”多方安全计算引擎系统,是为了解决行业合作中的可信交互和数据共享问题。天津移动通过引入联邦学习和区块链技术,打造了一个多方数据共享模型训练引擎。该系统能够在智慧零售、风险...

    人工智能与内容安全风控-4-5 纵向联邦学习计算特点分析及性能优化.zip

    例如,银行可以利用纵向联邦学习在不共享客户数据的情况下,与其他金融机构共同构建信用评估模型,或者医疗机构可以在保护患者隐私的前提下,进行疾病预测和研究。 总的来说,纵向联邦学习在人工智能和内容安全风控...

    联邦学习白皮书V1.0_联邦学习_

    它可能还会讨论加密计算、差分隐私等技术在联邦学习中的应用,以进一步增强隐私保护。 3. **系统架构与实现**:联邦学习的系统设计可能包含客户端-服务器结构、多层联邦结构,以及异步和同步的训练模式。 4. **...

    CCF-微众银行-刘洋-联邦学习的研究及应用.pptx

    在中国计算机学会的数字图书馆中“微众银行-刘洋-联邦学习的研究及应用”视频的ppt截图,由于网站中的视频不是很清晰,ppt也不能保证文字也特别清晰。 视频网址:...

    边缘计算下的联邦学习应用研究.docx

    当前的研究主要集中在边缘计算和联邦学习的独立应用,但在数据隐私和边缘计算网络方面的结合仍有待深入。例如,由于边缘计算环境中的设备多样性、通信不稳定性和资源限制,联邦学习在实际应用中面临通信开销、设备...

    基于秘密共享与同态加密的纵向联邦学习方案研究.docx

    ### 基于秘密共享与同态加密的纵向联邦学习方案研究 #### 一、引言 近年来,人工智能(AI)技术迅速发展,为各行各业带来了前所未有的机遇与挑战。随着大数据技术的进步,AI领域的研究与应用不断深入。然而,伴随...

    基于联邦学习的分布式数据安全融合方法研究.pdf

    本研究方法针对在大数据可用性和实用性前提下如何实现安全的数据融合共享进行了深入探讨,并提出了基于联邦学习框架的数据安全融合模型。该模型通过结合差分隐私、安全多方计算、同态加密和函数加密四种安全技术,以...

    TFF_联邦_谷歌-联邦学习开源框架_

    谷歌的TensorFlow Federated(TFF)是这个领域的开源框架,它提供了一个强大的平台,使开发者能够实现和研究联邦学习算法。在这个框架下,用户可以编写可部署在分布式环境中的计算逻辑,而无需关注底层的通信和执行...

    基于无线网络的联邦学习 优化模型设计与分析_无线网络联邦学习_

    在无线网络环境中,联邦学习的应用尤为关键,因为这里的设备通常拥有有限的计算资源和通信能力,且数据分散在各个节点上。本文将深入探讨基于无线网络的联邦学习的优化模型设计与分析。 首先,无线网络联邦学习的...

    横向联邦学习:研究现状、系统应用与挑战.pdf

    "横向联邦学习:研究现状、系统应用与挑战" 横向联邦学习是一种分布式机器学习框架,以其强调隐私保护的特性而...但是,横向联邦学习中也存在一些挑战,如数据异质性、数据隐私和计算资源等问题需要进一步研究和解决。

    联邦学习领域著名的FedAvg算法python源码

    FedAvg算法是联邦学习中的一个基础且重要的算法,由Google的研究人员在2016年提出。这个算法通过在多个设备或客户端上并行地执行本地训练,然后将这些设备的模型更新平均化,来达到全局模型的优化。 FedAvg算法的...

    基于联邦学习进行高校学生成绩预测研究python源码+项目说明+模型+数据(使用Streamlit搭建了可视化平台).zip

    基于联邦学习进行高校学生成绩预测研究python源码+项目说明+模型+数据(使用Streamlit搭建了简易的可视化平台).zip基于联邦学习进行高校学生成绩预测研究python源码+项目说明+模型+数据(使用Streamlit搭建了简易的...

    联邦学习隐私保护研究进展1

    在隐私保护和安全机制领域,联邦学习研究还存在挑战和展望: 1.隐私保护机制:需要开发更加完善的隐私保护机制,以保护数据隐私。 2.安全算法:需要开发更加安全的加密算法,以保护模型参数和原始数据。 3.数据孤岛...

    联邦学习的研究和应用1

    联邦学习(Federated Learning)是一种新兴的人工智能学习框架,旨在解决大数据隐私保护和分布式计算的挑战。由Google在2017年的研究中首次提出,它允许多个设备(如手机、IoT设备等)在不共享原始数据的情况下协同...

Global site tag (gtag.js) - Google Analytics