“Debug the world” 隐私计算风起正当时
两个百万富翁在街上相遇,如何在不泄露各自财产的前提下,让对方知道谁更有富有?这是华人科学家姚期智1982年提出的“百万富翁”设想,并在其中给出了“多方安全计算” 解决方案。
这一看似像童话故事的命题,实际上用到的理论,后来成为了现代密码学的重要理论框架。在世纪之交的2000年,姚期智也凭借在计算机领域的重要贡献,获得了计算机领域的诺贝尔奖——图灵奖。
2004年起,姚期智院士到清华大学任全职教授
四十年后,大概令姚院士本人也没想到,随着数字化时代的到来,数据逐渐成为了一项重要的生产要素,而对数据的使用及其带来的数据安全成为全球议题,由他发轫的MPC理论(多方安全计算),经过演变以及和其他技术结合,逐渐形成了一条独特的被统称为“隐私计算”的技术赛道。
隐私计算指的是在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”、“可算不可识”。隐私计算融合了密码学、计算机硬件、AI等多学科,逐渐形成了以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的相对成熟的技术体系。
2021年,隐私计算进入应用商业化元年。一年过去了,隐私计算的市场成果如何,未来何去何从?
2022年4月22日,权威国际咨询机构IDC中国发布《IDC Perspective: 隐私计算全景研究》报告,透露2021年中国隐私计算市场规模突破8.6亿元人民币,未来有望实现110%以上的市场增速。
据公开信息及相关研究,以蚂蚁集团为代表的“大厂”科技公司和以“星云Clustar”为代表的创业公司较早入局,已经成为国内隐私计算市场的两股主流力量。
隐私计算技术走过四十年,为什么在近年迎来爆发?
一个不可否认的事实是,互联网浪潮带来的人口红利已经逐渐走向饱和,数据资产再开发,正在成为新一轮增长点。
根据IDC数据,2020年全球数据量达到了59ZB。人们已经熟练地掌握了数据挖掘、数据分析的技术,在信息化、数字化的当下,不管是单一主体的数据分析,还是跨领域、跨多个主体的数据融合,其价值已经得到显现。对于数据的流通和开发,如果能够从更多维度,更多行业、更大体量等持续打通,那么数据作为生产要素的价值将得到最大程度地释放。
但不可忽略的是,数据流通领域头顶天然地悬着一把“达摩克利斯之剑”,避免它“野蛮生长”——越来越严的数据保护政策。
2016年,欧盟出台被称为当时最严的《通用数据保护条例》,一些科技巨头因为忽略数据安全吃过不少苦头。去年7月,美国电商巨头亚马逊因违反欧盟数据保护条例,被负责监管亚马逊数据保护的卢森堡当局罚款7. 46 亿欧元(约合57. 29 亿元人民币),成为欧盟有史以来最大的数据隐私泄露罚款。
2021年9月,历经三次审议,我国《数据安全法》正式实施,11月《个人信息保护法》生效,12月国务院办公厅印发《要素市场化配置综合改革试点总体方案》第二十条建立健全数据流通交易规则中强调了“原始数据不出域”。多部有关数据安全的法律法规、政策文件出台,凸显出数据合规发展的强烈需求。
让数据在法律法规范围内安全地用起来,隐私计算被认为是极为有效的技术措施,发展隐私计算技术成为了数据流通和数据保护不可或缺的一部分。短期来看,越来越严的数据安全政策促使了隐私计算市场的快速发展,而数据作为生产要素流通并形成的价值体系,才是隐私计算市场长远持续发展的根本动力。
市场的反应也印证了这一判断。2019年前后,我国以隐私计算为解决方案的初创技术公司,瞄准了数据安全市场,如雨后春笋般出现,而提前布局隐私计算多年的头部互联网科技公司,也逐渐走向了成熟化,涌现出一批成功的应用案例。
隐私计算市场格局雏形初现
隐私计算产业发端于国外,在中国市场得到风起。
2016年欧盟《通用数据保护条例》一经面世,便激起了数据安全保护产业的千层浪。国际传统科技巨头,迅速在理论和应用层面做出了回应,如谷歌2016年在一篇论文中率先提出分布式机器学习系统联邦学习,如今成为了隐私计算三大技术路线之一,还有一些公司通过开源算法库迅速抢占赛道;一些初创公司也开始通过切入单个技术路线,拼抢隐私计算市场。
从2017年开始,国内零星出现了一些隐私计算领域的技术厂商,到2019年集中涌现了一批不同技术路径的产品解决方案;经历2-3年的蛰伏,2021年隐私计算整体行业竞争态势开始加速,进入商业化元年,市场格局也露出水面。
目前隐私计算市场大概分为3类公司:科技公司的隐私计算部门、专注于隐私计算的初创公司、现有业务结合隐私计算技术的公司。
科技公司一般由于自身业务需要,对数据安全有着天然的高需求,在数据体量、算法、硬件开发、技术研发(包括专利和论文研究)、应用场景方面拥有优势,人才的布局也相对完整,能够平滑地将新技术与原有业务融合落地。从公开信息及市场应用情况来看,典型的如蚂蚁集团、腾讯云、阿里云、百度安全等,早期便入局了隐私计算技术赛道。
以蚂蚁集团为例,2016年开始布局隐私计算,技术能力涵盖了多方安全计算、隐私保护、联邦学习、机密计算、区块链技术等,推出了摩斯多方安全计算平台,可信隐私计算框架隐语、蚂蚁链数据隐私协作平台FAIR、蚂蚁隐私计算一体机等产品,在联合风控、政务数据、联合营销等业务场景中得到了成熟的应用。是典型的基于原有业务需求形成隐私计算技术能力,并逐渐向外开放的公司。
蚂蚁集团首个商用隐私计算一体机
IDC报告显示,蚂蚁集团隐私计算已经形成了性能优良,丰富多样的产品线,性能保持领先,通过了多项权威认证,安全合规。经过4年多打磨和大规模商业化应用,已初具规模。
初创隐私计算公司一般专注于某一项技术,核心研发团队大多在隐私计算领域具有多年研究经验,在多方安全计算效率、联邦学习模型丰富度、互联互通等技术探索中具有较强先进性,且具有差异化优势。如有把算力作为核心优势的隐私计算技术提供商,也有以软硬件结合解决方案推进数据开放流通的公司;还有专注于某一特定领域的隐私计算应用产品。有意思的是,这类创业型的隐私计算企业与互联网科技公司也尝试了合作互补、互联互通,经过强强结合推出性能更优、适用性更广的隐私计算产品或服务。隐私计算厂商诺崴科技就将国产化CPU及硬件架构、锘崴信隐私保护计算内核与蚂蚁集团可信原生一体化解决方案,隐私保护计算加速卡、自主可控可信执行环境、国密加速卡、安全可信技术栈等技术结合,打造了隐私保护一体机。
这类公司近年来也赢得了资本市场的青睐,仅2021年,星云Clustar获得1100万美金A+轮战略融资,翼方健数完成超过3亿元规模的B+轮融资,锘崴科技拿下亿元级B轮融资,而华控清交完成了5亿元人民币B轮融资,创下隐私计算行业截至目前最高融资记录。
此外,还有一类公司则是结合自身业务和技术优势,以短平快的方式迅速入局,用技术互补的形式完成隐私计算能力搭建。如把区块链与隐私计算结合打造隐私计算全生命周期数据流通;本身在安全领域擅长,打造数据沙箱这类隐私保护软件的公司等。
由于市场化起步时间较短,相对高昂的成本和体系化运营带来的门槛,当前隐私计算市场玩家收入规模不大,但凭借各自的技术特色、产品化能力等优势,在未来增长方面颇具潜力。
总体来看,未来头部厂商的优势将进一步凸显,特别是在大规模产业化应用、互联互通、行业生态建设层面;在行业竞争环境中下,细分领域各厂商将通过发挥专项技术优势,汰换出一批头号玩家。
隐私计算技术未来何去何从?
风口之下,实际上隐私计算目前仍然处于行业初期,技术发展、政策法规、互联互通、商业模式等还需要进一步完善。
首先,在隐私计算技术本身的安全性上需要实现突破。尽管隐私计算单一技术理论基础完善,但应对庞大的数据体量,隐私计算的性能和算力上也相应受到掣肘,且在安全性上,隐私计算单一技术并不是万无一失。以联邦学习为例,IDC通过调查发现,联邦学习是隐私计算重要发展方向。但是联邦学习技术仍然较为新兴,在安全性、去中心化架构、模型可解析性等各方面,仍然任重道远。
针对隐私计算产品的安全性,中国信通院2021年首次推出了多方安全计算和联邦计算两项隐私计算安全测评,从结果来看,安全测评共有9款隐私计算产品通过,蚂蚁集团和洞见科技成为了两项测评都通过的企业。
中国信通院隐私计算两项安全性测评,蚂蚁隐私计算全部通过(图片来源:信通院官方微信)
其次,在互联互通能力上,当前隐私计算存在产品及其技术架构的同质化现象,但细分来看却存在着不同的理论模型、技术路径和业务逻辑。新兴技术路线早期呈现的百花齐放的状态,释放了各自技术魅力,但经过一段时间的验证和应用之后,必定存在着一些技术的搁置甚至是淘汰。
要做到互联互通,技术上涵盖了从节点、管理系统到数据层面、算法协议等不同层面的互联互通。另一方面,行业标准的建设也至关重要,通过明确技术使用场景和框架,推动隐私计算技术的认知并加速落地应。目前中国信通院及相关部门已经牵头了多项行业标准及团体标准,国内主流厂商都有积极参与其中。在国际标准制定方面中国企业也积极参与。
如,中国联通、蚂蚁集团、之江实验室牵头了国际电信联盟(ITU)发布的“隐私保护机器学习技术框架”标准,蚂蚁集团主导的全球首个隐私计算一体机国际标准也通过了IEEE-SA立项。
在市场化关键的商业模式层面,尽管数据合规需求从根本上鞭策了相关企业进行数据安全的改造和升级,但当前隐私计算的商业模式还处于早期探索期。从收入形态来看,通过搭建隐私计算技术基础设施,产品售卖和平台搭建是主要来源;另一类是通过提供SaaS服务,主要面向中小客户群体,比如多中心的隐私计算保护需求或者跨域分析、咨询服务等商业模式已初具雏形。更多的模式还在探索期,在市场逐步成熟的条件下,营业模式也将与时俱进。
隐私计算技术当前主要成熟应用在金融、政务、联合营销、医疗等对隐私计算有刚性需求的行业。
2018年成立的隐私计算公司华控清交,众多技术骨干来自清华“姚班”,承建了光大银行的多方安全计算平台,帮助光大银行部署了业内第一个进入银行生产系统的多方安全计算平台。在此基础上,光大银行得以联合母公司光大集团旗下保险、信托、旅游等成员单位,开展客户金融资产、消费偏好、风险偏好等数据的联合统计与建模,加强集团内部数据互联互通。光大银行正在与多个集团外部企业探讨数据合作,未来可能共同开发联合风控等更多应用场景。
在医疗领域,数据价值也因隐私计算得到释放。以蚂蚁隐私计算的应用为例,蚂蚁可信隐私计算框架“隐语”和阿里云数字医疗团队合作,为浙江某三级医院搭建了面向医院运营管理的数据融合平台,病理质控和医保DRG(Diagnosis Related Group,疾病诊断相关分组)管理效能得到显著提升,2021年三个月时间内,医院累计优化数十万医保结算,并通过编码入组,将医保反馈分析工作量显著降低,甲级病案例病理质控也提升了10~20%。在这个案例中,基于蚂蚁隐私计算技术,多家医院数据安全共享联合建模,帮助解决了单一三甲医院的数据量和数据的丰富程度不充足的问题;同时在跨医院合作中,保证联合建模的模型达到调优,在保证数据安全可控、可用不可见的前提下,更好地发挥自身价值。
IDC判断,随着合规标准的逐步细化与推出,制造业、能源等行业对隐私计算的需求也将稳步上升。同时随着医疗领域将模型方面完善、信息化建设跟进,这一市场将迎来高速增长生物医疗,是下一个竞争市场与爆发点。
结语
回答隐私计算为什么理论诞生40年,真正起风却是在近两年,其实也是回答技术发展路径的普遍的现象。一项技术被广泛接受,需要经过理论发展、实践认证,大规模应用三个阶段。隐私计算技术,便是一个很好的验证,没有政策法规完善、技术成熟,便没有隐私计算从理论走向大规模应用的可能。有从业者多年前就发出过感慨,隐私计算是科技世界的一个“补丁”,需要有人“Debug the world”。而现在,或许正是隐私计算这项技术Debug the world的最好时机。