【金融科技发展研究】国内研究⑥基于隐私保护计算技术的金融领域数据融合应用研究

本期让我们一起来看看光大科技联合建信金科在“基于隐私保护计算技术的金融领域数据融合应用研究”领域的最新研究成果。

光大科技自成立来一直积极参与前瞻性研究,并在众多前沿领域取得丰硕成果。本期让我们一起来看看光大科技联合建信金科在“基于隐私保护计算技术的金融领域数据融合应用研究”领域的最新研究成果。

以下文章来源于北京金融科技产业联盟,作者BFIA

【编者按】为推进金融科技安全创新发展,金融科技产业联盟积极组织会员单位进行前瞻性研究,汇集研究成果及实践经验,形成《金融科技发展专报》,供监管部门和产业机构参考。

2020年5月11日,中共中央、国务院印发《关于新时代加快完善社会主义市场经济体制的意见》,指出推进数字政府建设,加强数据有序共享,依法保护个人信息。数据的隐私保护越来越受到重视,隐私保护计算不仅具有重要的理论意义,也具有很强的应用价值,该技术近年来得到了极大的优化。本文基于“隐私保护计算金融数据领域的融合应用研究”展开阐述,并分析未来金融领域数据安全的挑战与展望。

一、隐私保护计算国内外现状

在现代金融数字化转型的趋势中,“技术+数据”的双轮驱动效应不断显现,数据能力已经成为金融机构的核心竞争力之一。随着数据安全与隐私保护相关法规政策的不断趋严,金融机构间无法对各方数据进行有效融合与利用,产生了日益严重的“数据孤岛”问题,造成了各方的数据资源和价值无法充分被发掘的现状。为了解决在数据安全隐私前提下的数据融合与价值发掘问题,隐私保护计算技术逐渐受到各方的关注,基于信息论、密码学和可信硬件等理论与技术应用,实现了隐私数据的“可用不可见”,有助于在保护各方数据隐私,确保业务在合法合规的前提下,进行多方数据联合查询、联合运算、联合建模、联合预测等业务探索,赋能金融机构业务场景,提高营销和风控等能力。

(一)国内现状

国内隐私计算行业进入高速发展新阶段,金融机构、互联网巨头和创业公司都在加大投入进行技术研发和应用落地,政府机关和监管机构也在积极推进相关法律法规、技术标准的制定工作,产业发展呈现出以下几方面趋势。

1.加快培育数据要素市场

数据作为数字化的知识和信息,在我国生产领域扮演着越来越重要的角色,引领数字经济蓬勃发展的同时,逐渐实现由“中国制造”向“中国创造”发展路径的变革目标。而数据安全、隐私保护正在成为与之对立的矛盾面。

2020年4月,国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,明确把数据列为生产要素,并要求“加强数据资源整合和安全保护”,“制定数据隐私保护制度和安全审查制度”。

2020年12月,四部委发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,以深化数据要素市场化配置改革为核心,优化数据中心建设布局,推动算力、算法、数据、应用资源集约化和服务化创新。

2.出台信息安全法律法规

结合大数据时代的发展,国务院在2015年提出了《关于运用大数据加强对市场主体服务和监管的若干意见》,在数据开放的市场下,利用大数据以及现代信息技术提升政府对大数据的运用能力,完善政府服务和监管体系,提高政府数据治理水平。其后,国家互联网信息办公室于 2019 年先后发布了《数据安全管理办法(征求意见稿)》和《个人信息出境安全评估办法(征求意见稿)》,目前两项公开征求意见工作均已完成。

在金融领域,国家监管部门还发布了若干关于金融信息安全、金融数据治理、消费者数据保护的规定,如:《信息安全技术金融信息服务安全规范》、《金融数据安全数据安全分级指南》、《个人金融信息保护技术规范》等。

3.制定金融行业规范

人民银行于2020年11月发布《多方安全计算金融应用技术规范》(JR/T 0196—2020),规定了多方安全计算技术金融应用的基础要求、安全要求、性能要求等,该标准适用于金融机构开展相关产品设计、软件开发、技术应用等。近期,人民银行组织开展联邦学习技术在金融业务应用标准研究,开展《联邦学习技术金融应用规范》行标编制,拟从技术框架、技术要求、系统安全等方面规范联邦学习在金融领域的应用。截至2021年11月14日,该标准已提交金标委申请立项。

(二)国外现状

国外数据安全和隐私保护法规较国内更为严格,相关技术研发和应用落地进程慢于国内,各大金融机构使用隐私计算技术的态度较为谨慎,产业发展呈现出以下几方面趋势。

1.发布信息安全法律法规

国外在法律层面出台了相关政策以确保公民的隐私安全。欧盟保护公民隐私的《通用数据保护条例》(GDPR)于2018年生效,美国《加州消费者隐私保护法案》(CCPA)于2020年生效。

这些法律的公布对用户隐私保护起到了重要的作用,但同时给智能金融领域带来前所未有的挑战。目前,研究界和企业界的数据收集方不一定是数据使用方,数据在实体间的转移、交换和交易违反隐私安全保护规定,并可能遭到法规的严厉惩罚。这些法规的建立不同程度上对大数据、人工智能应用在各个场景中的数据处理模式提出新的挑战,不能处理好数据服务和用户隐私保护之间的关系,将极大阻碍信息化的发展,甚至给社会和个人带来灾难。“隐私安全保护”是智能金融进一步发展的一个必须要解决的难题。

2.制定行业标准规范

电气和电子工程师协会(IEEE)标准组于2020年3月发布了《联邦学习系统架构和应用指南》(IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning),该标准对联邦学习的定义、概念、分类、算法框架规范、使用模式和使用规范等方面都进行了系统性阐述,并对联邦学习在To B(企业端)、To C(用户端)以及To G(政府端)不同情境下的场景分类,建立了联邦学习的需求分析模板,厘定了联邦学习性能及安全测评准则。此外IEEE标准组《多方安全计算推荐实践》(Recommended Practice for Secure Multi-party Computation) , 国际标准化组织ISO《多方安全计算标准》,国际电信联盟ITU《多方安全计算技术指南》等均在分别制定当中。

二、隐私保护计算技术与应用概述

结合底层理论与上层应用,将现有的隐私保护计算技术分为三类,分别给出技术和金融应用层面的概述。

(一)多方安全计算技术

多方安全计算技术解决了多方在不暴露原始数据的前提下,共同完成某个运算任务,得到一致的运算结果。多方安全计算在上世纪80年代提出,先后出现了混淆电路、秘密分享、同态加密等技术分支。其中,混淆电路技术利用随机置换和不经意传输等密码技术,实现各方完成电路运算并获取结果。秘密分享技术是将各方的隐私数据进行随机化拆分,通过调用底层加法和乘法等基础运算模块,完成多方安全计算的技术框架。同态加密技术实现了在密文状态下对原始信息进行操作和运算,无需拥有解密密钥就可以完成多方运算任务。当前的多方安全计算技术在精度、安全性、性能等方面能够达到金融行业的应用需求,但仍存在算子支持度有限,多方扩展性差,通信量大等问题。

多方安全计算技术能够在金融应用场景中解决多方联合统计、联合风控、隐私检索、用户隐私筛查、数据隐私融合等痛点问题,实现了机构间保护隐私前提下的数据协作。金融机构和监管部门已经在衍生特征计算、客户转化率计算、企业贷前风险识别、用户ID隐私匹配与营销、多机构黑名单隐私融合等金融场景中,对多方安全计算技术进行方案论证和原理验证。

(二)联邦学习技术

联邦学习技术是机器学习与隐私计算相结合的新型交叉技术,使用传统机器学习与半同态加密技术相结合的技术路线,实现了各方原始数据不出本地的模式下进行多方模型训练与模型预测,能够获得比传统单方训练更高的模型质量。在联邦机制下,利用隐私安全计算技术,各参与方的数据不发生转移,因此不会泄漏用户隐私或者影响数据规范,是一种在保护数据隐私、满足合法合规的要求下解决数据孤岛问题的有效措施。联邦学习的应用模式可以分为纵向联邦学习、横向联邦学习、联邦迁移学习等,技术路线包括同态加密、秘密分享等。

相比于传统单方建模,联邦学习技术能够在金融应用场景中提升多方风控模型、多方评分卡模型、客户营销模型等模型质量,为金融机构带来更好的风控能力和营销效果。国内多家金融机构都在积极布局和参与联邦学习技术的场景落地和示范应用。

(三)可信执行环境技术

可信执行环境技术是可信硬件与密码学相结合的交叉技术,通过在芯片上划分可信区域,并设置严格的加密、验证与准入机制,实现了在可信区域内部完成隐私计算任务,而计算机其他软硬件均无法自行访问可信区域内部,保护了源数据的安全隐私。可信执行环境技术依赖于芯片厂商(作为可信中心)实时为芯片可信区域之间的保密通信提供验证和密钥签发服务。当前主流的可信执行环境技术包括Inter的SGX技术、ARM的Trust Zone技术等。国内厂商,例如华为、浪潮等也在积极布局该领域的研发项目,但是仍不具备国际竞争力。当前,可信执行环境技术的应用,受到国际关系、芯片供给等因素的影响,在国内开展应用试点的范围有限。

三、隐私保护计算在金融数据领域的应用实践

(一)智能风控领域的实践探索

近年来的技术改进所带来的智能风控领域突破,切实地影响着我国金融行业的发展。

1.为进一步落实国家对于金融服务下沉的要求,建信金科支持中国建设银行风险部,利用隐私保护计算技术,基于外部消费金融公司电商客群数据和建行内部客户相关数据,在真实业务和数据环境下,探索建立多方信用风险评价模型,并与单方数据模型效果进行比较分析,确认了隐私保护计算技术的可行性。

2.银行拥有大量有信贷需求的用户,而数据源公司掌握着海量用户的行为数据和场景数据。通过隐私安全计算,银行无需交换明细级原始数据,即可联合其它数据源公司建立风控模型。既能打破数据壁垒,让不同公司满足各自的利益诉求,又能保护各自的数据安全和用户隐私。

以某银行个人消费贷款申请评分模型为例,该产品的特点是全线上、无抵押,用于满足客户装修、购车、旅游、留学等多方面的用款需求。在风控审批中,该银行可用的数据有客户在行内留存的个人信息以及查询客户的信用分数据,但如果客户为银行新户时,则没有足够的行内数据可以参考,亦或客户属于征信白户,即从未办理过贷款业务,也从未申请过信用卡,对于此类客户,很难对其信用水平进行准确评估。针对这类情况,可以引入外部公司进行联合建模,利用运营商通话标签数据为客户增信,提升模型的预测能力。如图1所示,在进行联合建模前,首先需要找到银行与外部公司的交集客户,例如双方共同的手机号码,通过PSI技术保证双方均无法知道合作方的差集客户。

【金融科技发展研究】国内研究⑥基于隐私保护计算技术的金融领域数据融合应用研究

图1 联合建模样本对齐

建模时,银行拥有标签数据和征信分数据,运营商拥有通话标签数据,模型训练完成时,双方仅可获得各自对应变量的系数,模型效果相较仅使用自有信用分数据有了显著提高,结果表明,基于联合建模的AUC提高了约10%。利用联合建模,不仅解决了征信数据来源单一的问题,提高了模型效果,同时也更好地保护了客户隐私,进而帮助银行满足合规要求,实现智能风控升级。

(二)智能营销领域的实践探索

智能营销通过为消费者提供个性化与精准化的服务,解决了金融机构产品与客户间互联互通的障碍。

为实现集团一体化的战略目标,建信金科支持中国建设银行上海大数据智慧中心,利用隐私保护计算技术联合子公司建信基金,在“速盈客户价值提升”的场景中实现建行-建信基金的“母子联邦”业务形式,实现跨双方的联合模型构建,定位目标客群,助力客户价值提升。

(三)基于VSS的金控集团跨机构数据统计

大型金融控股集团中,各金融企业的用户信息常常比较分散。对不同企业间用户信息进行统计,有助于挖掘更多数据价值。对于跨机构数据统计问题,传统方案中,金控集团通常建立大型数据中心,各金融企业将数据上传至数据中心,数据中心进行统计。但社会对用户隐私问题的重视程度逐渐提升,以及各级立法和监管机构出台多项法律法规和监管规定,加强对个人金融数据隐私的保护力度,传统的统计方法已无法满足对个人金融数据隐私保护的监管要求。在光大集团的联邦数据治理实践过程中,针对跨机构用户资产求和这一场景,实现基于可验证秘密共享(verifiable secret sharing)的安全多方隐私求和方案,在数据不出本地的情况下,对用户在多个机构的数据求和。该方案在保障光大用户信息绝对安全的前提下,实现了数据的协同计算,最大化地释放了数据要素的价值。

(四)行业的生态建设

为推动数据安全与隐私保护工作,进一步了解隐私计算技术在金融领域应用实践的难点和痛点,北京金融科技产业联盟发起隐私技术金融应用调研并形成了《隐私计算金融应用调研报告》,为行业相关机构开展和推进隐私保护及数据共享等工作提供参考。

在业务应用创新之外,行业的生态建设同样推进着隐私保护计算在金融行业的迭代发展。基于当前影响最大的隐私计算开源社区FATE,在落地应用探索中,多家金融机构逐步认识到开源联邦学习FATE框架不能完全满足实际业务需求。经过各家金融机构的前期交流,FATE社区于2020年12月技术支持委员会内部会议上,发表了FATE金融分支的创立声明,由多家金融机构共同成立独立工作组,将投入资源继续研发针对金融行业相关场景的安全、高效隐私计算算法和框架,并不断持续优化迭代,该做法得到了技术支持委员会全体成员的一致认可。

四、金融领域数据安全的挑战与展望

(一)当前主要挑战

隐私保护计算技术路线多样,不同技术的底层安全机制区别较大,相关协议的系统性安全性评估和论证仍未完全成熟,相关国家标准密码算法缺失,相关解决方案在金融场景落地中的安全性和稳定性仍需更多实际业务和应用的验证和支撑。当前的隐私计算技术在抗恶意攻击、抗合谋攻击、抗量子攻击、依赖可信第三方、计算精度、通信量、算子丰富度等方面仍存在较多问题,需要学术界和产业界共同积极解决。

随着《个人信息保护法》和《数据安全法》等法律法规制定工作的不断深入,对于数据确权、数据出域、隐私数据流通与交易、用户授权等概念和评判标准仍有一定的争议。严格的数据安全管控与隐私计算产业发展之间仍存在一定的矛盾性,各个金融机构对于本单位数据保护要求不尽相同(例如是否接受哈希值出域、是否接受交集用户名单出域、是否接受密文出域等),为跨机构数据融合应用场景落地造成了一定的困难。需要立法机关、金融监管机构等单位推动相关的数据分级与应用落地样板,让金融机构在数据融合应用中有章可循。

(二)总结与展望

隐私计算技术越来越受到金融机构和监管部门的重视,也得到了学术界和产业界的积极响应,相关理论和技术研发创新也进入了快速发展和完善的进程中,有能力为金融机构和监管部门在风险防控、智能营销、数据融合、联合统计等场景提供不断更新迭代的解决方案。随着相关政策法规的不断完善,隐私计算金融场景落地不断深化,金融数据综合应用试点等项目进一步取得成效,隐私计算技术能够在合法合规的前提下实现各参与方数据融合与协作的多赢局面,进而促进激活数据要素潜能,加快金融业数字化转型,赋能金融服务提质增效,推动构建金融机构数据融合应用生态系统。