联邦计算&联邦学习研究

gaozzsoft

浏览: 431679 次
性别:
来自: 北京

最近访客更多访客>>

cdliudb

u012682683

webeasymail

makeshow

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

架构思想理论

联邦学习研究

随着IT移动化步伐地迈进，互联网数据被割裂为一个个孤岛，制约AI发展的一个瓶颈是保护用户数据隐私和打破不同主体之间数据孤岛的问题。随着移动设备性能的强化，4G/5G的兴起普及，在移动终端上进行模型训练变得可行。2016年，Google团队发布了一篇论文：Communication-Efficient Learning of Deep Networks from Decentralized Data。自此，产业界联邦学习（「Federal Learning」，Google中文命名为联盟学习，国内习惯称为联邦学习）的大幕开启。

在数百万不同的智能手机上部署联邦学习，其本质是移动模型，而非移动数据。为避免用户隐私泄露，联邦学习不需要在云端存储用户数据。智能手机下载当前版本的模型，通过学习本地数据来改进模型，并把模型改进增量加密发送到云端，与其他用户的更新即时整合为共享模型，所有的训练数据仍然在各终端用户的设备中，用户数据不会在云端保存。

在国际隐私数据条例（GDPR等）趋严的形势下，以Google为代表的ToC业务（如输入法）开辟了一个全新的思路。国内，联邦学习在产业界延伸至ToB领域，解决ToB AI的困局：隐私保护与数据孤岛问题。比如风控、营销等涉及到大规模的用户数据交互，隐私保护价值更高。2019年底，百度、微众、蚂蚁、富数、华控等5家公司，获得了信通院的安全计算证书，是当前安全计算资质中最具影响力的认证。

联邦计算核心技术

为联合打通数据孤岛，解决参与方的数据安全可信隐私保护问题，广义的联邦计算「Federated Computing」实现方案包括：以密码学为核心的MPC多方安全计算「Secure Multi-Party Computation」，以及硬件可信执行环境TEE「Trusted Execution Environment」。

一、多方安全计算（MPC：Secure Multi-Party Computation)

多方安全计算MPC以密码学为理论基础，采用算法/程序逻辑层面保障计算的安全可信任的基本理念，其安全性是可经过数学公式推导验证的。MPC不依赖于硬件等环境设施，即对各类异构的系统环境有兼容性，不依赖特定硬件。

1.混淆电路（Garbled Circuit）

混淆电路是一种密码学协议。图灵奖得主姚期智院士在1982提出著名的Yao's Millionaires' Problem，并给出了基于混淆电路的解决方案。该问题是Alex和Bob在无可信第三方，且不告知对方财富值的情况下比谁更富有。

其原理为：所有可计算的函数问题都可转换为不同的电路，由加法电路、乘法电路、移位电路、选择电路等表示。而电路本质上由门（gate）组成，逻辑门包括与门、非门、或门、与非门等。混淆电路把这些门进行加密和打乱来掩盖信息。Alice用密钥加密门的真值表并打乱后输出给Bob。Bob对真值表的每行进行解密，算法保障只有一行可解密成功，并提取结果。最后Bob将结果同步给Alice。过程中，二者交换的都是随机数或密文，无隐私数据泄露，但从程序逻辑层面完成了所需业务的计算。

2.秘密分享（Secret Sharing）

秘密共享（也称为秘密分割）是指用于在一组参与者之间分发秘密的方法，每个参与者被分配一个秘密的份额。只有当足够数量的不同类型的份额组合在一起时，才能重建秘密，个人份额本身无意义。

3.同态分享（HE：Homomorphic Encryption)

同态加密的概念早在1978年在银行应用背景下被提出，作者是RSA算法中的R(Ron Rivest) 和A(Leonard Adleman)以及Michael L. Dertouzos。对于同态加密的概念引用同态加密大牛Craig Genty的定义：

「A way to delegate processing of your data, without giving a way access to it.」

即使用者可以在不接触原数据的情况下进行数据处理。其本质是：使用方直接处理密文，然后解密密文得到的明文结果与直接处理明文得到结果等价。精巧之处在于，数据的处理方并不知道数据的明文，却最终计算得到业务期望的结果，即数据提供方未泄露其原始数据，有效保护数据隐私。

二、硬件可信执行技术环境（TEE：Trusted Execution Environment）

可信执行环境（TEE）是主处理器的安全区域。它保证内部加载的代码和数据在机密性和完整性方面受到保护。TEE作为独立执行环境，可提供各种安全功能：如隔离执行，应用程序的完整性，以及其资产的机密性。其保障安全的核心机制是：指令集扩展, 旨在以硬件安全为强制性保障, 不依赖于固件和软件的安全状态。

联邦学习分类

联邦学习定义为：在进行机器学习的过程中，各参与方可以借助其他方数据进行联合建模。各方无需共享数据资源，即数据不出本地的情况下，进行数据联合训练，建立共享的机器学习模型。联邦学习可以分为三类：

「横向联邦学习」

横向联邦学习（基于用户纬度切分）适用于两个数据集共享相同的特征空间但样本ID空间不同的情况。使用双方用户特征相同但用户不完全相同的数据进行训练。

「纵向联邦学习」

纵向联邦学习（基于特征纬度切分）适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

「联邦迁移学习」

联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上都不同的情况。该场景下，不对数据进行切分，而可以利用迁移学习来克服数据或者标签不足的情况。

联邦计算

基于MPC、TEE、FL和DP 等技术的多方联合计算平台，为跨机构数据流通提供“可用不可见，相逢不相识”的极致安全体验。可以解决金融、政府、医疗、互联网等客户在联合风控、联合营销、联合分析等场景的数据安全和隐私保护需求，实现数据价值极大释放

联邦分析

支持相关性分析、密文统计、联合分析，可对接大数据平台，实现密文数据分析

联邦学习

各参与方无需共享或交换各自敏感数据的情况下进行联合建模，支持横向联邦学习、纵向联邦学习常见模式。内置 LR、GBDT、DNN 等机器学习算法，支持基于 DSL 的算法自定义开发

分享到：

ER建模与业务流程建模研究

2023-09-15 19:52
浏览 395
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论