背景介绍
随着隐私计算技术的发展,越来越多的技术服务厂商研发了自己的隐私计算平台,或服务于自有生态,或服务于金融机构,或服务于政府机构,将原本独立存在的数据孤岛连接了起来,实现了“数据的可用而不可见”。但是因为不同的隐私计算平台基于自有知识产权的算法原理和系统设计实现,且目前闭源的平台居多,平台之间原生无法完成信息的交互,将“数据孤岛”变成了“数据群岛”。以金融机构为例,作为数据的应用机构,往往面对着和不同的数据提供机构合作时,需要部署不同隐私计算平台的情况,存在着严重的系统建设和运营成本浪费,因此“互联互通”成为了隐私计算在金融领域应用正在面临的新挑战。
为了解决金融领域隐私计算平台互通性的问题,北京金融科技产业联盟、中国信通院等标准化组织正在积极推动互联互通的标准建设,本文将从技术视角解读金融领域隐私计算跨平台互联互通的演进历程和未来展望。
互联互通的定义
隐私计算常用技术方案包括:联邦学习、安全多方计算、可信执行环境、同态加密等,不同的技术方案之间因为技术实现的底层原理和应用场景的不同,互通的技术难度较大,所以业界共识的“互联互通”一般而言,指的是同类技术方案之间的“互联互通”。
隐私计算平台的互联互通指基于不同设计原理和功能实现的隐私计算平台之间协同完成某一项隐私计算任务的能力,具体指不同隐私计算平台间通过统一规范的系统接口、算法协议、操作流程等实现数据资源和计算能力的交互与协同,解决使用不同隐私计算平台的数据提供方和数据应用方之间的协作问题,实现资源与价值的跨平台互联互通。
互联互通的原则
隐私计算跨平台互联互通以求同存异为原则,关注跨平台协同能力基础环节的标准化,也保留个性化和可扩展性。对于通信协议、资源管理、任务调度、算法协同等互联互通的基础环节形成统一共识,提出标准化的技术规范;对于具体的算法实现和平台个性化服务功能等不同平台间的差异化设计支持自定义扩展。
互联互通演进史
随着隐私计算技术的演进,隐私计算平台互联互通的发展过程分为三个阶段:
第一阶段:业务驱动不同厂商的隐私计算平台一对一对接
大型的数据提供机构已有或已在研发自己的隐私计算平台,需要应用其数据的机构客户会被要求部署和使用数据提供方的隐私计算平台。大型的数据应用机构,如:银行、保险等金融机构,不可能对接一份外部数据就搭建一套对方提供的平台,这在金融机构内部的流程和业务对接都是不小的工作量,难以实施落地。 另外,比如:银行总行和不同的省分机构、业务中心,可能分别部署了不同隐私计算厂商的平台,在银行内部的信息共享也会碰到互联互通的需求。
在这种情况下,基本上是针对某个具体的业务,对应的隐私计算厂商一对一来进行技术对接,这是一个互相适配的过程,同时需要一致的节点管理、资源管理,以及具体所采用算法的流程设计。在业务驱动下,以“通“为目的的一对一平台互通是可以实现的。双方挑选相对标准且双方都认可的算法,而不需要是一个包含自己很多独特优化特点的算法,以一方为主导进行对接,从业务推进上来讲,这是一种周期比较短、且可落地的实现方式。
第二阶段:厂商自定义自己的互通规范
随着业务规模的发展,隐私计算厂商在服务金融客户的过程中会碰到更多的互通需求,同时也随着第一阶段的实际落地,厂商会定义自己的互通规范或者互通方法,明确如果要和自己的平台对接,需要采用什么样的通信协议、报文封装和加密算法,以及算法的流程如何实现和对接,形成一份互通文档,也包含一些方便对接的工具类或SDK包。 但是由厂商自己声明的互通规范,无法形成行业标准和约束,需要有商业合作的推动、合作方的主动配合才能够实现互联互通。
第三阶段:形成行业统一的标准规范
目前隐私计算平台的互联互通处在第三个阶段,隐私计算厂商连接了不同的“数据孤岛”,但是因为彼此之间无法直接互通,又形成了“数据群岛”,不同的隐私计算厂商同时在做互通对接,将彼此构建的数据生态打通,在数据的群岛之间又架设了无数的桥梁。
图1:数据孤岛-数据群岛-重复互联
数据群岛的形成有商业的原因,也有技术的原因,因为每个群岛存在自己的生态,也有为自己生态来定制化的自有算法或工程优化,它的存在是合理的。但是互联互通从本质上来讲,是一个系统对接的过程,可能会有一些技术上精巧的设计,但是最终目的是一个“通”字,所以需要的是一个统一的标准指引,让大家能够参考实现。 目前金融行业的标准制定组织——北京金融科技产业联盟也在组织金融行业系列标准的起草和撰写,引导和推动隐私计算行业的良性发展。
统一的标准,必定会带来一些硬性的定义,比如:通信的协议,报文的格式,如果这里都没有统一的定义,互通基本上是没办法落地的,当然这里必须要采用行业通用的实现方式,并且圈出建议隐私计算厂商实现的 方式,这样让不同的隐私计算平台可以在统一的信道上完成“对话”。如果要实现这个目标,必然需要不同的厂商来做改造和配合,但是这是一个有利于行业良性发展、非常值得做的工作。
标准的统一也不希望抹除所有的个性,比如:自研的加密组件、独特的算法实现,包含自己独有的知识产权,不期望公开的信息,这时就需要围绕“通”的目标,提供组件化的定义,允许组件内部是黑盒的方式,预先定义输入和输出,屏蔽内部的实现细节。
互联互通的实现路径
从隐私计算平台的系统架构视角由上到下,从技术落地的视角由易到难,隐私计算平台互联互通的实现方式分为三个层次:
图2:互联互通实现层次
第一层次:管理系统互通
管理系统互通指不同的隐私计算平台可以在应用层完成系统的管理功能互通,如:节点发现、资源管理等,完成在不同的平台之间业务层的互联互通。
1)节点发现
不同的隐私计算平台之间可以通过预先定义的节点发现协议进行彼此节点的互认,可以建立节点间的网络连接,确认彼此身份,并在此基础之上实现机构之间合作关系的建立、暂停和结束等完整业务流程。
2)资源管理
不同的隐私计算平台之间通过资源管理接口的统一定义和对接,实现对金融领域数据资源的命名空间统一定义、唯一确定,为计算任务的执行完成输入数据资源的标准化定义。
不同的隐私计算平台基于各自的算法原理和系统设计实现,平台之间原生无法完成信息的交互,因此需要首先约定不同隐私计算平台之间的通信规范,在此基础之上定义报文格式、参数内容等,才能完成后续的消息内容交互、协作指令执行等流程。
第二层次:算法协议互通
不同的隐私计算平台之间的差异主要在两个部分:
1)核心算法的设计原理不同
隐私计算技术服务厂商自己的核心知识产权,不同的算法设计影响到数据计算的逻辑、数据交互的流程,正是算法的设计原理不同造成了不同的隐私计算平台之间无法互通。
2)支撑算法运行的功能组件的差异化
包括:通信模块、加密组件、资源管理、任务管理、模型管理、节点管理、授权管理等在内的诸多功能组件均是不同的技术服务厂商结合自身的技术积累和场景应用而实现的,存在很大的差异化。
从“互联互通“的架构设计角度上看,支撑算法运行的功能组件偏重于工程的实现,可以通过标准规范的方式进行逐步的统一,如:
a. 采用统一的通信协议:使用HTTPS进行隐私计算信令消息的同步,使用GRPCS进行数据内容的交互;
b. 采用统一的加密组件:使用预先约定好的高强度加密算法,使用满足安全性要求的随机数生成机制;
c. 采用统一的资源定义:使用统一的命名空间方式来定义不同数据集的标识,做到全局的唯一;
d. 采用统一的任务调度:对隐私计算任务定义统一的任务管理原语,控制任务的全生命周期运行;
e. 采用统一的模型格式:定义算法的模型封装格式,做到模型可以在不同隐私计算平台之间迁移部署,应用于批量预测和在线推理服务;
f. 采用统一的节点管理:规定统一的节点发现协议,节点认证机制,如:机构证书、机构签名等;
g. 采用统一的授权管理:制定统一的资源授权申请流程,以及授权操作类别、授权周期、授权次数等。
在完成功能组件的标准化规范之后,不同的隐私计算平台可以形成可容纳不同“算法插件”的“统一外部功能框架”。
图3:统一外部功能框架
关于“核心算法”的统一,存在两种方式:
1)对于具体的某一种算法,可以基于算法原理的论文在技术服务厂商之间形成一种标准的设计方式,即此种算法的设计是公开透明的,不同的厂商可以采用自己的技术栈实现计算的逻辑、交互的流程,完成不同隐私计算平台的互通。
图4:各参与方自研标准算法插件完成互通
2)类似于预先标准化功能组件,把“核心算法”看做一个黑盒,对算法本身的设计不做定义,而对算法的基本信息、输入、输出规范定义:
a. 算法基本信息:算法名称、算法原理说明文档或论文引用、算法必需的参与方角色、参数配置模板;
b. 算法输入:参与方信息(算法执行需要的参与方访问信息:IP地址、端口等,及对应的参与方角色信息),参与数据集(数据方角色参与计算的数据集标识信息),参数配置(根据“参数配置模板”生成的算法配置信息);
c. 算法输出:报告信息(结果模型的评估指标、数据贡献度、结果数据集的统计分布信息等),结果模型(算法训练迭代得出的模型结果、结果数据集、算法输出的中间数据结果),日志信息(训练过程中的重要步骤的日志信息,便于调试和问题追踪)。
在算法的周边信息定义完成之后,算法可以通过“算法插件”的形式由不同的技术服务厂商发布,在满足安全认证和授权要求的前提下,插件化集成到对方的隐私计算平台,进行同构化的算法插件之间的互联互通。
图5:一方自研算法组件部署到另一方完成互通
第三层次:计算原语互通
不同的隐私计算平台往往采用了不同的算法或协议实现方式,如:安全多方计算平台可能采用了秘密分享协议、不经意传输、混淆电路等不同的技术实现路径,联邦学习平台对算法的拆解和实现方式不同,采用的同态加密算法或多方计算方式不同等。
但是无论哪种隐私计算技术实现方案,都可以将算法或协议进行最小粒度的计算原语分解,以安全多方计算采用的ABY3秘密分享协议为例,互通参与方需要参照该协议原理的流程定义,进行原始数据的密文化拆分,在密文基础上进行加密计算算子的实现。参照协议原理,我们可以分别在每个步骤中,实现计算原语的抽象和定义,在不同的隐私计算平台之间对计算原语进行各自的实现,在原语层次实现互联互通,继而再基于底层计算原语的中层算法实现、上层应用服务实现平台的互联互通。
互联互通的展望
随着隐私计算行业互通系列标准的制定落地,隐私计算跨平台的对接必然会推动隐私计算平台的百花齐放,在服务金融行业数字化转型、提升金融行业资源配置效率、强化风险管控能力等方面有效促进金融业务的创新发展,助力于发展基于数据驱动的经济和商业模式,反向刺激数据要素的生产,推动数据的开放和应用,完成金融行业数字化和智能化的数据新基建。
作者简介
何浩,洞见科技联合创始人、CTO。
王湾湾,洞见科技合伙人、数据智能总监。
李博,洞见科技合伙人、市场品牌总监。
auto.didf.cn autos.i085.cn i.tljucheng.cn 3g.jgfitness.cn m.binglangw.cn m.ht-emc.cn |