Introduction
Today, 澳门赌场官方下载可获得的前所未有的个人数据量为利用这些数据利用人工智能(AI)等技术提供了无限的新机会。, 包括机器学习. 然而,这些发展也带来了新的威胁1 并且增加了这些系统使用个人数据的个人隐私受到损害的风险.
为了应对扩大的威胁面, 消费者要求澳门赌场官方下载做好数据管理工作,负责任地使用数据. A recent surve2 of about 5,来自19个国家的000名消费者报告称,近68%的人担心在线隐私. 澳门赌场官方下载面临的挑战是如何在尊重隐私的同时从个人数据中提取价值.
隐私增强技术(pet)是一种很有前途的解决方案. 它们支持个人数据分析, sharing, 在遵守数据保护原则的同时使用,不会对隐私产生负面影响. pet可以帮助防止下游危害3 通过加强数据保护实践. In the last decade, 它们已经从研究领域脱颖而出,并开始通过商业产品和开源解决方案获得行业采用, 降低实施的成本障碍.
Defining PETs
1995年安大略省信息和私隐专员的报告中有关于私隐服务的早期定义,4 将pet描述为“通过减少或消除可识别数据的收集来保护个人隐私的各种技术”,”,以及经济合作与发展组织(经合组织)2002年加强私隐技术清单, 它将pet定义为“有助于保护个人隐私的广泛技术”.”5
虽然数据隐私法中没有对pet的具体法律定义,但最近的指导意见6 published by the UK Information Commissioner’s Office (ICO) views PETs as “technologies that embody fundamental data protection principles by minimizing personal information use (this covers the legal definition of personal data in the UK GDPR); maximizing information security; or empowering people.”
国际标准化组织(ISO)将pet定义为
privacy control, consisting of information and communication technology (ICT) measures, products, 或通过消除或减少个人身份信息(PII)或通过防止不必要和/或不希望的PII处理来保护隐私的服务, 所有这些都不会失去ICT系统的功能.7
本白皮书将采用欧盟网络安全机构(ENISA)8 definition of PETs, which is “software and hardware solutions, i.e., 包含技术过程的系统, methods, 或实现特定隐私或数据保护功能或防范个人或自然澳门赌场官方下载体隐私风险的知识.”
PETs enable greater privacy and data utility within enterprises and promote collaborations externally in potentially competing organizations by reducing the risk associated with data sharing; hence, 它们也被非正式地称为促进伙伴关系的技术9 and trust technologies.10
推动PET市场的增长
处理敏感个人资料, 比如健康或财务信息, 与第三方共享会给澳门赌场官方下载带来法律责任和风险. 这些挑战阻碍了数据生态系统中数据的充分利用. pet可以从未充分利用的数据中提取价值,并使潜在的敌对方无需相互信任即可执行数据分析.
pet可以从未充分利用的数据中提取价值,并使潜在的敌对方无需相互信任即可执行数据分析.
除了对保护隐私至关重要, 它们还通过释放数据的潜力和启用新的业务用例提供了显著的经济优势. 以下增长动力可能会在未来十年刺激PET市场的扩张:
- 用户对隐私的期望-客户期望澳门赌场官方下载负责任地处理他们的数据并确保隐私. Nearly 68% percent of customers are concerned about online privacy.11 This concern reflects how much they trust companies with their data, 在哪些方面失去信任会导致收入损失. A Cisco survey12 据报道,76%的消费者不再使用产品,也不再从他们不信任数据的组织购买产品.
- 不断发展的法规遵从性要求-管理数据隐私的法律在130多个国家存在,13 导致复杂的法规遵从性环境. 关于pet的监管指导,以潜在地减轻合规负担, 比如ENISA关于数据保护工程的报告14 以及英国ICO的PET指南,15 是否有可能加速PET作为一种支持合规工作的机制的实施.
- 创新和新的商业机会-随着数据供应链的延伸, 多方之间对协作和无缝数据共享的需求日益增加. pet支持多方协作,同时保持数据的私密性,并可以支持探索以前被认为是高风险的新用例. 另一个例子是数字广告业,它正在转向一个没有cookie的未来16 需要发展广告定位的解决方案, measurement, 在尊重用户隐私的前提下. IAB技术实验室等一些联盟正在开发开源解决方案,以便在数字广告行业推广pet.17
- 转向合乎道德的数据使用-数据伦理包括收集的道德义务, safeguarding, 负责任地使用个人信息. 倡导团体和智库18 关于数据伦理使用的讨论是否正在从数据科学家和首席数据官的领域转向董事会层面的对话. pet可以支持数据道德并提供保证,同时为加拿大CIO战略委员会的人工智能道德保证计划等正在进行的工作做出贡献19 以及电气和电子工程师协会(IEEE)解决系统设计过程中道德问题的标准模型过程.20
- 新兴加密货币市场-加密货币市场规模估计为37美元.8 billion as of 202321 并有可能继续扩大,为机构所接受, 增强对去中心化金融平台的认识, 作为一种多样化的工具,以减轻对通胀的担忧. 隐私对于加密货币保护交易历史至关重要. Hence, 加密货币市场的增长预计将推动零知识证明(ZKPs)等pet的增长。, 如何在不泄露敏感财务数据的情况下验证交易.
Classifying & Categorizing PETs
已经尝试了几种基于底层技术或与之相关的用例对pet进行分类和分类. 这些类和类别可以帮助澳门赌场官方下载确定哪些pet可能最适合他们的特定用例. 以下是一些分类和分类的例子:
- The OECD taxonomy22 将pet分为四类:1)数据混淆, 2)加密数据处理工具, 3)联合和分布式分析, 4)数据问责.
- 旧金山联邦储备银行PETs报告23 根据pet的功能将其分为三种具体技术:1)改变数据, 2) shielding data, 3)系统和架构.
- The UN PET Guide24 将pet简洁地分为1)输入隐私和2)输出隐私. 输入隐私的目的是允许多方提交数据进行计算,而不让其他各方公开访问数据, 输出隐私的目的是防止对散布输出的数据进行识别或再识别.
- 英国ICO的宠物指南25 classifies PETs that can help achieve data protection compliance, 包括设计和默认的数据保护.
- 派生或生成减少或消除个人可识别性的数据的pet,以帮助实现数据最小化原则. 示例包括差异隐私和合成数据.
- pet“专注于隐藏和屏蔽数据,以帮助实现安全原则的要求”.例子包括同态加密(HE)和zkp.
- pet“根据处理的性质,分割或控制对个人数据的访问,以帮助实现数据最小化和安全原则”.示例包括可信执行环境(tee), 安全多方计算, and federated learning.
- 数据伦理与创新中心《澳门赌场官方下载》26 基于用例对pet进行分类. 这两大类是1)传统的pet,涵盖了传输中的加密, encryption at rest, and de-identification techniques; and 2) emerging PETs that include homomorphic encryption, 可信执行环境, multiparty computation, differential privacy, 联邦分析.
为了简化, 本文将使用数据伦理与创新中心基于案例的分类,重点关注新兴的pet. 下一节将介绍常见的pet.
可信执行环境
可信执行环境(TEE)是计算机处理器上的一个专用区域,它与操作系统(OS)分离并受到保护。. 它在其安全区域内存储数据并运行代码. TEE假设操作系统是不可信的,并且不允许操作系统访问存储在安全区域中的数据. 当需要安全存储敏感数据,或者需要从数据中生成见解,而不向运行分析或托管TEE的一方透露数据集时,可以使用TEE.
TEE是一个环境,它为三个主要属性提供一定程度的保证:
- Data Confidentiality不允许未授权方查看数据
- Data Integrity—No ability to add, remove, or modify data for unauthorized parties
- Code Integrity—No ability to add, remove, or modify code for unauthorized parties27
除了保证数据的安全之外, 这些属性还有助于证明所执行的计算是正确的, 在计算结果中启用信任.28
As shown in figure 1, TEE通常部分在CPU的硬件中实现,部分在相关的软件库中实现.
Figure 1: 具有可信执行环境的运行时安全性的操作系统支持
来源:改编自Gonzalez, J.; “具有可信执行环境的运行时安全性的操作系统支持 (Doctoral Thesis),” ResearchGate, March 2015, http://www.researchgate.net/publication/297732884_Operating_System_Support_for_Run-Time_Security_with_a_Trusted_Execution_Environment
与tee有关的标准包括:
- ISO/IEC 11889-4:2015 信息技术。可信平台模块库29
- IETF 可信执行环境供应(TEEP)体系结构30
- IEEE 2830-2021 基于共享机器学习的可信执行环境技术框架与要求31
- GPD_SPE_055 可信用户接口低级API32
Benefits
tee通过限制对未加密数据的访问来确保数据的准确性、隐私性和一致性. 数据实用程序不会受到影响,因为实际计算是在未加密和无噪声的数据上完成的. 它们通过每次在将数据加载到内存之前对其进行身份验证来实现代码保证.
当与其他pet结合使用时, 例如多方计算(MPC), tee可以促进互不信任的各方之间的合作, 允许在不直接导出的情况下测试代码.
限制与挑战
tee容易受到侧信道攻击和定时攻击, 可以泄漏加密密钥或推断有关TEE的底层操作的信息.
与基于软件的pet相比,它们也有更高的获取和维护成本. 商业TEE解决方案对大型数据集上的分布式计算提供有限的支持.
Example Applications
苹果的Secure Enclave是最新版本iPhone中的专用安全子系统, iPad, Mac, Apple Watch, etc. Secure Enclave与不受信任的主处理器隔离,即使在应用程序处理器内核受到威胁时也能保证用户数据的安全. 它保护敏感数据,如iOS和第三方应用程序使用的用户生物特征数据和加密密钥.
Google的trusted是一个为Android提供TEE的安全操作系统. Trusty和Android操作系统并行运行, Trusty通过硬件和软件与系统的其余部分隔离. Trusty的隔离保护它免受用户安装的恶意应用程序和可能在Android中发现的潜在漏洞的攻击.
Homomorphic Encryption
同态加密(HE)是一种直接计算加密数据而无需解密的加密技术. 计算也是加密的, 只有提供数据的一方拥有输出的解密密钥. With HE, 不需要屏蔽或删除任何功能来保护数据的隐私, 使所有功能都可以在分析中使用,而不会损害隐私.
HE有三种类型, and the selection of the appropriate scheme will depend on use case, scale, 数学运算的类型, 数据实用需求:
- 全同态加密(FHE)—支持所有类型的操作,不限制操作次数
- 有点同态加密(SHE)-支持加密数据的加法和乘法,但限制了操作的数量
- 部分同态加密(PHE)-只支持加法或乘法,但不能同时支持
HE依赖于公钥生成算法来生成一对私钥(或秘密)和公钥以及一个评估密钥. As shown in figure 2, 使用客户端的公钥对数据进行加密, 评估密钥用于对加密数据执行计算,并与另一个实体共享. 保留私钥的客户端对输出进行解密,得到计算结果. 因为实体只拥有客户端的公钥和评估密钥, 它无法了解结果. 数据仍然是加密的,需要客户端的私钥进行解密.
Figure 2: FHE的典型计算流程
来源:改编自Riazi, S.; “From Fully Homomorphic Encryption to Silicon — What is Microsoft’s HEAX?《澳门赌场官方软件》,2020年7月7日, http://blog.openmined.org/from-fully-homomorphic-encryption-to-silicon/
与高等教育有关的标准包括:
- 同态加密标准201833
- ISO/IEC 18033-6:2019 IT安全技术。加密算法。第6部分:同态加密34
- ISO/IEC AWI 18033-8 信息安全。加密算法。第8部分:完全同态加密35
Benefits
HE可用于从计算中获得见解,而无需向运行分析的人员透露数据集的内容. 它降低了数据泄露的风险,因为个人数据在静态状态下仍然是加密的, in transit, and during computation. 它消除了对受信任方的需求,可以在公共云环境中使用,并实现安全外包.
HE可用于从计算中获得见解,而无需向运行分析的人员透露数据集的内容.
Additionally, HE可以提供一定程度的保证,保证计算的结果与未加密数据的结果相当,因为数据没有被更改(例如.e., no noise is added). 数据实用程序被保留,因为不需要删除数据功能来保护隐私.
限制与挑战
因为只有一个秘密(解密)密钥存在, 他不为多于一个方提供输入隐私. HE通常具有较高的计算成本,并且需要加密专业知识进行开发. 值得注意的是,如果攻击者获得了所选密文的解密,HE不能保证安全性. HE还要求选择适当的算法和密钥大小,以确保私钥保持安全.
Example Applications
IBM Research HE4Cloud36 FHE服务是否用于在云上部署隐私保护计算. 它允许客户部署他们的机器学习模型,并使用加密数据来训练它们,或者在云原生软件即服务(SaaS)体验中运行推理请求.
丹娜-法伯癌症研究所和双重性技术公司. collaborated to leverage HE to drive insights from multisourced, 加密的数据,从来没有解密它的安全, 大规模全基因组关联研究.37
安全多方计算
安全多方计算(SMPC)使多方能够在不向彼此泄露其内容的情况下分析其组合数据. 它使用一种称为秘密共享的加密技术, 每个参与方的数据被分割成碎片并分发给其他参与方.
Another SMPC cryptographic technique is private set intersection (PSI), 如何使双方能够比较他们的数据并识别共同元素,同时保持剩余数据的隐私.
由于每一方只拥有数据的一个子集,因此无意错误或恶意泄露的风险是有限的. 只有将各方的数据片段结合起来,才能显示数据, 这是不可能的,因为它会危及多方的数据安全.
Figure 3 illustrates SMPC, 安全值(用深蓝色和浅蓝色表示)在哪里被分割成分布在计算节点之间的任意数量的共享. 在计算过程中,没有计算节点可以恢复原始值,也无法从输出(灰色饼)中了解到任何信息. Any node can combine its shares to reconstruct the initial value.
Figure 3: 安全多方计算
来源:改编自徐,J.; Glicksberg, B.; et al.; “Federated Learning for Healthcare Informatics,医疗保健信息学研究杂志, March 2021, http://www.researchgate.net/figure/Privacy-preserving-schemes-a-Secure-multi-party-computation-In-security-sharing_fig3_346526433
与SMPC相关的标准包括:
- IEEE 2842-2021 IEEE安全多方计算推荐实践38
- IETF隐私保护测量协议标准39
- ISO/IEC 19592-2:2017 信息技术。安全技术。秘密共享。第2部分:基本机制40
- ISO/IEC CD 4922-1:2023 Information security — Secure multiparty computation — Part 1: General41
- ISO/IEC 4922-2 信息安全。安全多方计算。第2部分:基于秘密共享的机制(草案)42
Benefits
SMPC可以通过对加密数据进行计算推理来防止数据泄露. Additionally, 它消除了对可以访问每个人数据的可信中央机构的需求. SMPC维护数据实用程序,因为数据没有被屏蔽. 它允许多个互不信任的各方进行协作,因为数据不会受到不必要的干扰. 此外,SMPC还可以免受量子攻击.43
限制与挑战
使用SMPC,随机数生成的计算开销可能会减慢运行时间. SMPC需要对参与SMPC的恶意方进行威胁建模和准确预测. 额外的成本与秘密共享所需的各方之间的通信和连接有关, 这也会导致可伸缩性问题. 正确部署SMPC协议还需要大量的专业技术知识.
Example Applications
SMPC使大型医疗保健提供商的研究人员能够私下跨组织数据源进行计算,以增加样本量和患者属性, leading to improved model performance and heart-disease prognosis.44 美国一个县政府的五个机构利用SMPC来运行涉及监禁状况的敏感查询, 心理健康设施的使用情况, 和公共住房福利,同时保持输入数据(e.g., 犯罪记录和精神健康访问记录)对提供数据的每一方严格保密.45
Federated Learning
联邦学习(FL)是一种体系结构的PET,它使多方能够在他们自己的数据上训练模型.e., local models). 然后,各方将这些模型确定的一些模式组合成一个模式, more accurate global model without having to share any training data. FL本地化了对数据的控制,甚至对运行在该数据上的模型的控制. 联邦学习有两种方法:集中式和分散式.
In centralized FL, 协调服务器创建一个模型或算法, 该模型的副本版本被发送到每个分布式数据源. 复制模型在每个本地数据源上训练自己,并发回它生成的分析. 该分析与来自其他数据源的分析合成,并由协调服务器集成到集中式模型中. 这个过程不断重复,不断完善和改进模型。.
集中式FL更易于管理, 因为训练阶段只有一个控制点, 它可以容纳大量的客户(figure 4).
与分散的FL,如图 figure 5, 数据保留在用户的设备/服务器上, and models are directly updated; no central coordination server is involved. 每个参与实体与其他实体通信, 它们都可以直接更新全局模型. 该方案比中央FL更具弹性,因为没有单点故障.
Figure 4: 集中式联邦学习
Figure 5: 分散的联邦学习
资料来源:英国信息专员办公室,“第5章:隐私增强技术(“PETs”),” 匿名化、假名化和隐私增强技术指南草案, September 2022, http://ico.org.uk/media/about-the-ico/consultations/4021464/chapter-5-anonymisation-pets.pdf. 包含在开放政府许可v3下许可的公共部门信息.0.
在不暴露原始数据或模型参数的情况下,跨多方使用关于同一组用户的不同特征来训练模型的FL方案被称为垂直FL, 而对跨多方的同一组用户使用相同功能的方案被称为水平FL.
IEEE 3652.1-2020 IEEE联邦机器学习架构框架和应用指南46 一个标准与FL有关吗.
Benefits
FL允许数据所有者保留控制权而不共享原始数据. 由于训练的分散化,它(尤其是去中心化的FL)对网络故障和中断具有弹性. FL可以支持多方提交模型改进,同时保持敏感数据的私密性. 此外,FL不需要复杂的硬件.
限制与挑战
FL需要可靠的连接. 它很容易受到攻击,恶意服务器可以从训练数据中了解特定的数据点,或者数据输入(中毒)可能导致性能下降. Local data sets may have limitations around accuracy and labels. 此外,本地节点的数据集和参数必须与其他节点可互操作. 必须考虑的一个因素是,数据集的特征可能随时间而变化.
Example Applications
谷歌使用FL来改进设备上的机器学习模型,比如Google Assistant中的“Hey Google”,47 它允许用户发出语音命令. 它也用于下一个单词的预测48 智能手机的虚拟键盘.
已在医疗保健领域对FL进行了评估,以通过协作获得见解来支持精准医学研究…无需将患者数据移出其所在机构的防火墙…研究表明,通过FL训练的模型可以达到与在集中托管数据集上训练的模型相当的性能水平,并且优于仅看到孤立的单一机构数据的模型.49
Differential Privacy
差分隐私(DP)是一种确保数据集中个体隐私的数学框架. 它通过在数据中引入可控数量的随机噪声来实现这一点, effectively concealing the contribution of individual data points. This means that the results of any analysis remain largely unchanged, whether an individual’s data is included or excluded from the dataset. 通过允许在不泄露数据集中任何个人的敏感信息的情况下分析数据,它可以提供强有力的隐私保障. 噪音允许貌似合理的推诿.e., uncertainty about the actual value of private variables in a system,50 对于包含特定个人数据的数据集.
差分隐私(DP)是一种确保数据集中个体隐私的数学框架. 它通过在数据中引入可控数量的随机噪声来实现这一点, effectively concealing the contribution of individual data points.
As shown in figure 6, DP向数据集引入隐私损失或隐私预算参数, 通常表示为(ε), 哪一个控制了原始数据集中添加了多少噪声或随机性. ε0以牺牲准确性为代价完全保护了隐私,因为它只引入了噪声. 图中的“X的选择退出场景”表示如果个人信息不包含在数据集中会发生什么.
Figure 6: Differential Privacy
资料来源:英国信息专员办公室,“第5章:隐私增强技术(“PETs”),” 匿名化、假名化和隐私增强技术指南草案, September 2022, http://ico.org.uk/media/about-the-ico/consultations/4021464/chapter-5-anonymisation-pets.pdf. 包含在开放政府许可v3下许可的公共部门信息.0.
DP有两种类型:“全局差分隐私”, which adds noise during aggregation; and local differential privacy, where each user adds noise to individual records before aggregation.”51
全局DP比本地DP更准确,因为它不需要为类似级别的隐私保护添加大量噪声. 全局DP的缺点是它需要一个可信的聚合器,并且有一个单点故障, 这就增加了安全风险.
全局DP比本地DP更准确,因为它不需要为类似级别的隐私保护添加大量噪声.
目前,还没有与DP相关的标准. However, 作为对美国国家外汇管理局行政命令的回应, Secure, 人工智能的可靠发展和使用(2023年10月), 美国国家标准与技术研究院发布了“评估差异隐私保障指南”草案.”52
Benefits
DP provides measurable privacy guarantees that are easy to communicate. 它允许根据数据和用例的上下文定制所提供的隐私. DP is commercially ready and proven to scale for large data sets, 提供联动攻击防护.
此外,它还可以防止攻击者访问原始数据. 对于连续数据发布的累积风险,DP提供了可证明的隐私保证. 它还使计算透明,其参数可以公开.
对于连续数据发布的累积风险,DP提供了可证明的隐私保证.
限制与挑战
正确实施DP需要专业的技能和能力. 根据用例的不同,添加的噪声可能会降低数据的效用. DP也不适合低计数数据集和检测数据中的异常. In the absence of industry-accepted guidelines and standards for DP, there is no consensus for setting and tuning privacy parameters.
Example Applications
美国人口普查局在2020年人口普查中开始使用DP,以防止提供详细人口统计信息的美国公民被重新识别53 同时仍允许公布人口统计总量.
Microsoft uses DP to collect telemetry across millions of devices, 采用LDP (local differential private)机制54 为重复收集计数器数据而设计. 这种机制提供了正式的隐私保证,即使是在延长的执行期之后.
Synthetic Data
合成数据将敏感数据集转换为具有相似统计属性的新数据集,而不会透露原始数据集中个人的信息. 它是从真实数据中生成的,使用经过训练的模型来再现该数据的特征和结构.
合成数据将敏感数据集转换为具有相似统计属性的新数据集,而不会透露原始数据集中个人的信息.
主要存在两种类型的合成数据:
- 部分合成数据仅对原始数据中的某些变量进行综合
- 完全合成的数据综合了所有变量
目前,还没有与合成数据相关的标准.
Benefits
合成数据可以降低数据泄露的风险,因为它不容易与个人联系起来. 此外,它还降低了与安全存储和维护相关的数据管理成本.
生成合成数据比收集和准备数据要快. Additionally, 合成数据使澳门赌场官方下载能够更好地控制数据的质量和格式.
限制与挑战
在合成数据中,偏差可能会被放大,尤其是在源数据不是中性的情况下. 合成数据的应用程序容易受到数据泄漏和重构攻击, 特别是在数据集中的异常值的情况下.55 此外,它可能不适用于需要高度准确性的用例.
Example Applications
美国运通从金融交易中生成统计上准确的合成数据,以执行欺诈检测并帮助训练检测模型.56
Waymo使用合成数据57 开发真实的驾驶数据集来训练其自动驾驶汽车系统. 这有助于澳门赌场官方下载生成训练数据的各种情况,而无需花费大量时间和资源从实际案例中收集数据.
Zero-Knowledge Proof
零知识证明(ZKP)是一种用于在不泄露数据本身的情况下证明有关数据的知识的加密方法. 零知识证明主要有两种类型:
- 交互式零知识证明-证明者和验证者相互作用多次. 验证者向证明者提出挑战, 在验证者被说服之前,谁对这些挑战提供答复.
- 非交互式零知识证明-证明方提供的证明只能被验证方验证一次. 这在计算上比交互式zkp更昂贵.
zkp可以用于分散的身份和身份验证管理. For example, 基于zkp的身份解决方案可以在不提供护照信息的情况下验证一个人的公民身份, 或者在他们不需要透露出生日期的情况下进行年龄验证.
zkp可以用于分散的身份和身份验证管理.
与ZKP相关的标准包括:
Benefits
zkp支持安全的交易和验证方案. 由于数据没有存储在zkp的集中位置,因此它们可能不会受到网络攻击.60
限制与挑战
实现zkp需要大量的技术专长和加密协议知识. Generating and verifying proofs can be computationally intensive. Additionally, 可伸缩性问题使得zkp对于需要及时响应的用例来说不切实际. 因此,zkp已经在区块链技术等有限领域找到了应用.
实现zkp需要大量的技术专长和加密协议知识.
Example Applications
加密货币Zcash使用zkp来验证个人的加密钱包余额和交易历史,而不透露实际信息,以确保区块链网络发送者的余额将覆盖交易.61
ING银行使用零知识范围证明解决方案,允许抵押贷款申请人证明他们的工资在一定范围内, 但没有透露具体数字.62
PET选择的关键因素
PET的选择高度依赖于上下文、特定的业务案例和隐私需求. 人们曾多次尝试开发PET选择决策树,63 涵盖传统和新兴pet.
数据伦理和创新中心宠物采用指南64 提供了一个交互式工具,帮助技术架构师和产品所有者为敏感数据项目选择pet. 该指南包括支持技术参考和用例存储库. 然而,这些指南并不全面. 每种PET或正在考虑的PET组合的利弊需要根据澳门赌场官方下载的具体要求进行慎重权衡.
虽然PET决策没有标准流程, enterprises should consider the following factors for PET selection:
- 执行数据保护影响评估—To assess whether the enterprise should consider a PET deployment, 一个好的策略是执行数据保护影响评估(DPIA)65 评估特定数据处理用例的风险. DPIA应该考虑数据处理上下文、范围和目的. It should assess necessity, proportionality, and compliance measures. Furthermore, 它应确定受影响个人的风险,并评价应采取的措施, 考虑潜在的PET实施成本以降低风险.
- 开发业务案例-在决定通过实施PET来降低风险之后, 澳门赌场官方下载应该考虑开发一个业务案例66 有详细要求,包括:
- 所涉及的各种利益相关者的清单, 包括技术的预期用户和他们的目标
- 要处理的数据的类型和数量
- 数据源和目标
- 数据输出要求
- 对数据的访问控制要求
- 资源期望的计算
- 隐私保障要求
- 审查数据治理成熟度数据治理是PET部署的先决条件. 必须了解哪些个人资料是受管制的, 它目前位于哪里, 在哪里处理, 以及如何使用它. 是否已经建立了数据治理策略, 澳门赌场官方下载应该了解哪些政策需求将适用于正在评估的pet数据,并评估如何执行这些政策. Metadata, such as data labels, 可以用来帮助理解数据的敏感性和细粒度数据保护需求吗.
数据治理是PET部署的先决条件. 必须了解哪些个人资料是受管制的, 它目前位于哪里, 在哪里处理, 以及如何使用它.
- 建立评价标准-确保所有的需求都被考虑和评估, 澳门赌场官方下载应制定综合评价标准,以辅助决策. 以下是一些可纳入评估过程的常见准则:
- Privacy goals—Enterprises should assess the privacy goals for input and output privacy; SMPC and HE might be appropriate for input privacy, 而输出隐私可能需要DP.
- 隐私保障要求-澳门赌场官方下载应与法律团队合作评估隐私保障要求. DP和HE可以为最终用户提供可证明的隐私保证.
- 涉及的当事人数目-澳门赌场官方下载应该评估参与计算的各方,以及他们是可信的还是不可信的参与者. HE可以支持一个数据提供者,而TEE和SMPC可以支持多个数据提供者.
澳门赌场官方下载应该评估参与计算的各方,以及他们是可信的还是不可信的参与者.
- 灵活性和可伸缩性—Scope creep and requirement changes are common in the dynamic environments in which most enterprises operate; therefore, 澳门赌场官方下载应评估所考虑的pet的适应性. HE和SPMC实现的后期变更会对时间和成本产生负面影响.
- 性能的期望—Enterprises should assess performance needs because certain use cases may be sensitive to even minor degradation in computing speeds; for example, HE通常比明文操作慢得多.
- 对其他系统的依赖—PETs typically must integrate with additional security and data tools, 例如身份和访问管理解决方案, 数据准备工具, 关键管理技术. 集成可能会带来开销,应该在决策过程的早期进行评估.
- 实现专业知识-像密码学这样的专业技能很难找到, often making the development of PET solutions in-house challenging. 决策应该考虑到资源的可用性, skillset needs, 以及正在考虑的pet商业化准备情况.
- Configuration changes-隐私风险可能随着时间的推移而演变, 关于pet的适用性决策应包括配置更改的便利性,以应对动态威胁形势.
- 透明度目标-澳门赌场官方下载应确保所选择的pet是可审计的,并应向消费者和第三方如实反映pet的能力. 值得注意的是,联邦贸易委员会已经对未能履行对消费者的隐私承诺的组织提起了诉讼.67
- 考虑单个PET vs. combined PETs-宠物不能保证解决所有隐私风险和业务需求. Enterprises should consider the combinations of PETs that can help, 而不是根据单个PET解决方案的缺点做出决定.
宠物不能保证解决所有隐私问题 风险和业务需求.
HE和SMPC经常被用来平衡操作的速度和灵活性. 类似地,通常将DP和合成数据结合起来,以补充隐私保护功能.
从规管角度看宠物
Privacy regulation is technology-neutral; hence, most privacy laws do not explicitly reference PETs. pet可以通过设计和普遍接受的隐私原则来支持隐私.
However, pet能够在多大程度上实现隐私法规遵从尚不清楚,需要仔细分析.
Leveraging PETs for Privacy by Design and Other Privacy Principles
隐私设计是指将隐私整合到澳门赌场官方下载的整个工程过程中. 基于设计的隐私是这样一种概念,即当数据处理过程中的数据保护在创建时已经集成到技术中时,它就会得到最好的遵守. 澳门赌场官方下载应定期评估数据保护技术的技术进步,并部署合适的技术控制, 从而建立PET评估和采用的案例.
澳门赌场官方下载应定期评估数据保护技术的技术进步,并部署合适的技术控制, 从而建立PET评估和采用的案例.
pet还可以支持对其他基本隐私原则的遵守, 比如经合组织的隐私原则,68 哪些是若干隐私法和国际隐私框架的基础.
Figure 7 summarizes how PETs can be used to uphold data protection principles.69
Figure 7: pet和数据保护原则
资料保障原则le |
Principle Description |
加强私隐技术的例子 |
---|---|---|
Purpose Limitation |
收集个人资料作指定用途, explicit, 合法的目的,而不是以与这些目的不相容的方式进一步处理. |
受信任的执行环境(tee)提供认证机制来远程验证隐私请求处理. |
Data Minimization |
个人资料必须足够, relevant, 并且限于与它们被处理的目的有关的必要内容. |
联邦学习(FL)消除了集中的数据收集,并最大限度地减少了模型训练阶段处理的个人信息. 零知识证明(ZKP)限制处理所需的个人数据量. 安全多方计算(SMPC)支持协作,而无需与所有相关方共享所有底层原始数据. |
Storage Limitation |
个人资料的保存形式,容许识别资料当事人的时间,不会超过处理个人资料的目的所需要的时间. |
同态加密(HE), 差分隐私(DP), 合成数据可能使数据“匿名”,从而使数据不再受数据保护合规要求和限制的约束. |
Accuracy |
个人资料应准确,如有需要,应完整并保持最新. |
tee通过限制对未加密数据的访问来确保数据的准确性和一致性. |
保安措施(诚信及保密) |
个人资料应以合理的保安措施加以保护,以防止遗失或未经授权的查阅等风险, destruction, use, modification, or disclosure of data. |
HE通过在不泄露明文数据的情况下对加密数据进行计算来降低数据泄露的风险. tee通过将数据存储在安全区域来保护数据不受授权访问. 通过消除数据传输到集中存储的需要,FL减少了攻击面. ZKP支持安全处理,同时对相关方屏蔽底层数据. |
Accountability |
控制人应当负责, 并且能够证明遵守, 保障资料原则. |
取决于pet的实施情况, 它们可以作为一种工具来证明组织的责任,并补充现有的隐私计划. 组织应确保有关pet使用的任何隐私声明必须准确无误. 对于数据治理,tee可以提供为降低风险而采取的步骤的证据70 and enable the enterprise to demonstrate the accountability principle. |
Legal Uncertainties Hindering PET Adoption and Remedial Strategies
pet提供的隐私和安全功能与几个监管框架的基本原则保持一致. 然而,宠物不断涌现,并没有明确映射到现行法律. Also, PET是一个总称, 确定特定的PET或它们的组合在特定用例中是否合法是具有挑战性的, hindering adoption. 以下是与pet和监管要求相关的一些挑战.
- 对于特定用例,可能从特定监管机构获得有利响应的PET, 例如使用安全的MPC进行跨境转账,71 可能不适合数据源或数据类别不同的类似用例. 在没有规定性指导的情况下,每个PET实施都需要在个案的基础上评估其合规性.
- 哪些地方的PET实施涉及多个司法管辖区, 不同的监管机构可能对特定情况下PET的充分性有不同的意见. In addition to legal analysis for each representative jurisdiction, 澳门赌场官方下载必须评估pet是否符合跨境数据传输法律,包括数据主权和本地化问题.
- ENISA and TeleTrusT guidelines on state-of-the-art technical measures72 define it as the “best performance available on the market to achieve...IT安全目标.” Figure 8 表明一项技术措施将从“现有科学知识和研究”阶段开始实施. When it is introduced in the market and reaches market maturity, 它转移到“最先进”的阶段. 一旦技术措施得到市场的认可和广泛采用, 通常用相应的标准来描述, 它被确立为“普遍接受的技术规则”.“已经受到损害或不再得到制造商支持的措施失去了认可,不应再在实践中使用. pet尚未得到广泛采用,并在实践中证明自己适用于各种场景. Additionally, pet的标准化工作正在进行中, 成熟度必须独立评估. Therefore, 将特定的PET建立为特定场景的“最新技术”存在不确定性.
- 对于涉及多个参与澳门赌场官方下载的协作性pet, 例如MPC或跨筒仓联合学习, 也许在某些情况下, 取决于参与程度, 根据GDPR等法规,所有参与者都可能被归类为数据控制者73 即使他们从未访问过个人数据.
- The scope of data protection laws is limited to personal data as defined in the law; therefore, 匿名数据通常不在合规范围之内. 例如,GDPR不适用于匿名数据.74 However, 匿名化和可识别程度的法律术语尚未规范化和统一定义, leading to uncertainty in leveraging PETs to render data anonymous. 根据GDPR,有人认为HE是一种假名化和匿名化技术.75
Figure 8: 基于Kalkar决策的三种技术状态
Source: ENISA, 《澳门赌场官方软件》和《澳门赌场官方下载》,” TeleTrusT, 2021, http://www.teletrust.de/fileadmin/user_upload/2021-09_TeleTrusT_Guideline_State_of_the_art_in_IT_security_EN.pdf
澳门赌场官方下载必须使用基于风险的方法确认所有利益相关者都履行了他们的法律义务,并评估在特定用例中实施PET是否符合法规. The UN guide on PETs76 建议采用四步流程,如 figure 9.
Figure 9: PET选择与合规
Conclusion
在适当的法律指导和隐私保证下,pet可以在数据治理的隐私设计方法中发挥重要作用.
除了被用作遵从性推动者之外, 它们支持澳门赌场官方下载建立新的数据合作伙伴关系,在保护个人隐私免受损害的同时,从数据中提取最大价值.
商业解决方案和开源库帮助降低了PET的实现成本, 协助推动中小型澳门赌场官方下载采用. pet已成功地应用于各行各业的生产中, including healthcare, finance, insurance, telecommunications, 执法部门减少与数据使用相关的隐私风险.
随着这些技术的快速发展和实现,解决了现实世界的业务问题, pet正在引领一个合乎道德地使用数据的新时代.
由于缺乏对使用这些技术的认识和详细指导,PET广泛利用的前景受到阻碍. 尽管一些监管机构和政策制定者已经开始努力促进pet的创新和采用, 市场将如何反应还有待观察.
由于缺乏对使用这些技术的认识和详细指导,PET广泛利用的前景受到阻碍.
Finally, pet可以增强隐私并培养对数据经济的信任,但不能取代强大的隐私计划. 考虑采用pet的组织仍然需要遵守既定的数据保护原则,并将pet视为更广泛的隐私框架的一部分, 哪些可能需要其他技术和组织措施的补充.
Appendix: Case Studies
增强隐私的技术作为业务的推动者
本节中的案例研究说明了pet在各行业实际场景中的角色. These case studies show that the purpose of PETs is not solely to safeguard individuals’ privacy; instead, 澳门赌场官方下载还可以利用它们加强数据合作伙伴关系,提高透明度.
The purpose of PETs is not solely to safeguard individuals’ privacy; instead, 澳门赌场官方下载还可以利用它们加强数据合作伙伴关系,提高透明度.
背景和业务需求在确定pet的适用性和有效性方面起着至关重要的作用. Therefore, 列出的案例研究不应被视为推荐的解决方案,而应被视为范例,说明pet开启了原本令人望而却步的高风险数据使用商业机会.
案例研究1:使用合成数据的保险行业隐私保护预测分析
Source: Anonos77
德国一家公共保险澳门赌场官方下载的人工智能和数据科学团队在利用客户数据进行预测分析时遇到了一些数据隐私挑战. 大多数客户数据的敏感个人性质以及对部门间和外部共享的限制构成了相当大的障碍.
开始使用这些数据, 数据团队首先在个案基础上进行隐私评估, 这个过程通常需要几个星期. Anonymization methods, 比如屏蔽或k-匿名, 被证明不合适,因为它们损害了数据的有用性并且未能满足合规性要求.
Additionally, 驾驭澳门赌场官方下载数据共享和使用系统的复杂性非常耗时, 澳门赌场官方下载寻求在不修改内部系统的情况下加快获取数据的时间.
最优解以合成数据的形式出现,因为它保持了原始数据的统计值, 从而提高效用. 生成合成数据的过程完全切断了原始记录和合成记录之间的一对一关系, 将重新识别的风险降到最低.
该澳门赌场官方下载将合成数据用于预测分析推荐引擎,以确定100多万客户的需求, 预测他们未来的服务和产品购买. 使用匿名合成数据建立数据体系结构消除了对原始数据的需求, 加快到数据的时间.
利用合成数据进行预测分析的好处和结果是显著的. 其中包括简化的数据使用审批流程, achieving more than 80% usability of synthetic data while maintaining data anonymity; a 97% increase in performance effectiveness for machine learning models trained on synthetic data; and a reduction of four weeks in time-to-data without requiring adjustments to the internal data-sharing workflow.
案例研究2:医疗行业保护隐私的心血管风险预测模型
资料来源:《澳门赌场官方软件》78
CARRIER(冠状动脉疾病:预防和早期发现的风险评估和干预措施)项目旨在发现和预防冠状动脉疾病(CAD)。. Comprising clinicians, citizens, legal experts, and data scientists,79 该项目在连接不同各方拥有的数据集方面面临着重大挑战. 这一过程的关键问题是重新识别受试者的风险, necessitating robust data security and privacy-preserving measures.
为了应对这一挑战, CARRIER解决方案采用了几种pet的组合, such as SMPC, HE, secret sharing, and FL. In this approach, 输入方和计算方各自运行通过批准的Docker映像提供的预定义代码(参见 figure 10. 只有经过本地方批准的图像才能在本地数据上执行.
Figure 10: 联邦学习基础设施的体系结构
Source: Buckley, D.; “12. 统计荷兰:发展隐私保护心血管风险预测模型从分布式临床和
社会经济数据”.un, 9 February 2023, http://unstats.un.- 20 at%2013 org/wiki/download/attachments/152797270/screenshot%202023 - 02 - 09%.32.29.png?
version=1&modificationDate = 1675949565217&api=v2
这个过程是通过Vantage6控制的,这是一个开源的FL基础设施. The participating parties can independently review the Docker images, 执行的事务保存在中央日志中. 在将最终输出发布到合作澳门赌场官方下载之外之前,将手动检查潜在的隐私泄漏.
该项目正处于概念验证阶段.
案例研究3:电信部门安全协作,使用联邦隐私保护分析提高客户参与度
Source: Openmined80
非洲电信澳门赌场官方下载,拥有超过2.72亿用户, MTN与阿约巴有战略合作伙伴关系, 一个免费的消息应用程序,超过5.5 million users. Ayoba的目标是了解其客户使用行为,以预测流失(定义为应用程序连续30天不活跃),并通过推动客户参与来减少不活跃. 全球移动通信系统(GSM)用户使用模式(可从MTN获得), 结合阿约巴的使用行为, 与单独的这些来源相比,提供了更强的阿约巴不活跃的指标.
MTN and Ayoba leveraged federated privacy-preserving analytics (figure 11)获取客户见解,同时为客户数据提供隐私保护. 垂直联合学习,通过分裂神经网络实现,81 在PySyft上构建模型,82 一个保护隐私的深度学习库. 该解决方案支持在多个数据所有者的垂直分区数据特征上训练神经网络, without requiring the movement of raw data from its owner’s server. 跨不同数据所有者的重叠实体的识别是通过私有集交集(PSI)实现的。, using encrypted IDs associated with the corresponding data points.
Figure 11: 联邦隐私保护框架体系结构
Source: OpenMined, “案例研究-联邦隐私保护分析,用于电信合作伙伴之间的安全协作,以提高客户参与度。,” 24 June 2022, http://blog.openmined.org/content/images/2022/06/image4.png
The privacy-preserving model predicted churn with a precision of 84.78% and recall of 82.64%, 哪一种与具有隐私保护的基线共享数据模式的预测性能相比.
案例研究4:用于网络犯罪调查的公共部门和金融服务机密计算
资料来源:世界经济论坛83 和对偶技术
网络防御联盟(CDA)是一个总部位于英国的非营利性公私合作伙伴关系,与金融部门和执法部门合作,共享信息以打击网络犯罪. However, 由于无法及时协调多方之间正确请求的数据集,因此在收集网络犯罪调查所必需的数据方面出现了挑战. 犯罪分子利用这些缺陷来逃避侦查.
来应对这些挑战,如下所示 figure 12, 一个由CDA内的四家银行和英国大都会警察局组成的联盟实施了一个支持pet的协作平台,通过询问对方的系统以发现可疑的网络犯罪活动,提高他们识别欺诈的能力. 情报要求和数据来源是所有参与者事先商定的. 这样就可以在参与者的系统之间自动交换数据, 为调查小组节省时间和资源. 它确保敏感的搜索参数在此过程中保持加密, 因此总是保护调查对象.
Figure 12: PET及联合调查
Source: Adapted from 世界经济论坛,“网络信息共享:构建集体安全”,2020年10月; http://www3.weforum.org/docs/WEF_Cyber_Information_Sharing_2020.pdf
调查结果显示,保密查询降低了信息披露和违反监管规定的风险,同时也防止了内幕消息的泄露. 合作银行的及时响应能够更有效地检测和威慑恶意活动. This meant that law enforcement could take proactive and timely action, 确保预防, for example, of the further transfer of funds through a money-laundering network.
案例研究5:汽车行业基于隐私威胁建模的可审计数据分析
汽车澳门赌场官方下载可以访问敏感的客户数据84 比如驾驶行为, geolocation data, vehicle telematics, 连接服务数据, inferred data, etc. 必须根据各种隐私要求保护这些信息. 一家大型亚洲汽车制造商希望利用敏感数据对汽车转售价值进行预测分析,并希望与合作伙伴协作共享这些数据,以在保护隐私的同时获得数据洞察力. 该澳门赌场官方下载还旨在识别和量化与在模型培训中使用客户数据相关的隐私风险.
To address these challenges, the proposed solution, depicted in figure 13,涉及基于pet的匿名化和风险评分过程. 这种方法模拟了隐私攻击, 比如单独攻击, linkage attacks, and outlier attacks, 对来自源的数据集进行采样,以对各种数据流执行属性级风险评分. 隐私威胁建模框架,如LINDDUN85 和监管要求是采用诸如差别隐私等pet组合的基础, k-anonymity, and t-closeness. 这些技术被用来减轻所识别的隐私威胁. 应用pet后, 计算剩余风险评分, 提供保证并使缓解技术的应用可审计.
Figure 13: 基于pet的匿名化和风险评分过程
Source: PrivaSapien. 经许可转载.
该解决方案有助于解锁数据使用,同时确保符合亚洲和欧盟的隐私监管要求. 它帮助开发了一个可重复和可共享的基于数学的DPIA流程. Data governance for customer data was automated and streamlined, 使数据管道具有隐私意识,并利用隐私风险评分与澳门赌场官方下载内外批准的数据共享级别之间的预定义映射. PETs实现的可审计特性为适当的配置提供了保证,并支持通过平衡隐私和实用程序参数对输出进行微调.