摘要
蜂窝电话供货商和数据聚合公司从用户设备中搜集蜂窝信号强度丈量数据,生成信号地图,用于改善网络功能。咱们认识到,这种数据搜集或许与人们日益增长的隐私意识相冲突,因而咱们考虑在数据脱离移动设备之前对这些数据进行混杂处理。咱们的方针是进步隐私性,使人们难以从混杂数据中康复灵敏特征(如用户 ID 和用户行迹),一起仍答应网络供给商运用这些数据来改善网络服务(如创建精确的信号地图)。为了研讨这种隐私与功效的权衡,咱们确认了合适信号强度丈量的隐私和功效方针以及要挟模型。然后,咱们运用几种卓越的技能对丈量成果进行混杂,包含差分隐私、生成敌对隐私和信息论隐私技能,以便对各种有远景的混杂办法进行基准测验,并为实践国际中负责构建信号图的工程师供给辅导,使其在维护隐私的一起不危害功效。咱们的评估成果根据多个不同的真实国际信号图数据集,证明了一起完成充沛的隐私性和实用性的可行性,混杂战略在规划中运用了数据集的结构和预期用处,并以均匀状况而非最坏状况为方针。
Introduction
在这项工作中,咱们研讨了蜂窝信号强度丈量中的隐私-功效权衡,重点是设备级混杂,即在丈量成果脱离用户手机之前对其进行混杂或私有化。目的是进步隐私性,运用户 ID 和行迹等灵敏特征难以从混杂丈量中康复,一起仍答应网络供给商运用丈量成果改善网络服务,即创建精确的信号地图。为了研讨这种隐私与功效的权衡,咱们确认了合适当前信号图运用的隐私和功效方针以及要挟模型。然后,咱们运用隐私研讨前沿的一些有出路的办法对丈量成果进行混杂,以便对其进行基准测验,并为实践国际中负责构建信号图的工程师供给辅导,这些信号图既能供给(必定的)隐私,又能保持(满足的)实用性。
咱们施行了四种混杂信号强度丈量的战略,以评估和比较它们在特定运用中的功能,并从文献中挑选了具有不同复杂性和隐私确保的优异办法。具体来说,第一种是添加噪声的隐私化器,它在数据特征中添加独立、同散布的高斯噪声。这种计划尽管简略,但经过挑选添加多少噪声,为隐私功效权衡供给了直观的办法。第二种计划根据差分隐私(DP)[12],这是一种领先的数据混杂办法,可供给针对任何任意对手的概率最坏状况确保,包含具有无限资源和拜访侧信息的对手。在这项工作中,咱们运用了流行的部分高斯机制 [12],以及最近的切断拉普拉斯机制 [13]。
第三种办法运用生成式敌对网络的理念,选用数据驱动的办法学习混杂计划。这种办法被称为生成式敌对隐私(GAP)[14],它将以神经网络为模型的保密者和敌对者敌对起来。保密者学会混杂数据,使对手无法揣度灵敏特征,而对手一起学会揣度灵敏特征。尽管这种办法无法供给不同私有化办法的正式最坏状况确保,但这种学习办法供给了运用数据集结构和网络特定功效方针的潜力。第四种战略的动机是对问题进行信息论处理。考虑到互信息是隐私功能的一个凸衡量,咱们将一个正式的优化问题界说为在功效束缚条件下找到隐私最大化的混杂战略。咱们将这种办法称为(IT),它在均匀意义上最大化了用户隐私,但牺牲了递延隐私办法供给的最坏状况确保。第 5 节将具体评论这些私有化办法。
3 系统模型
图 1 展现了咱们所考虑的系统模型,其间涉及移动用户、服务供给商或第三方以及对手。用户设备记载网络丈量数据并将其传输到服务供给商或第三方服务器。由于所陈述的数据包含用户或许认为是隐私的信息(如用户方位,见第 3.1 节),因而用户在将数据上传到服务器之前,会运用设备级私有化器在本地对数据进行混杂(见第 3.3 节)。服务供给商的方针是依据汇总的混杂用户丈量数据练习 RSS 模型,该模型可用于生成信号图,从而辅导网络规划和运转 (见第 3.6 节)。最终,可以拜访混杂数据的对手经过估量与接收到的丈量数据相对应的用户 ID 和方位来估量用户的行迹(见第 3.5 节)。请注意,咱们假设服务供给商对用户行迹也很猎奇,因而也或许是对手。咱们进一步假设,敌方可以拜访抵达服务器的混杂数据,但不能拜访直接露出用户身份的侧边信息(关于要挟模型的具体描述,请拜见第 3.2 节)
3.1. 用户数据
表 1 列出了与本文最相关的特征及其灵敏性方针。用户 ID 和方位被认为是灵敏特征(私密),而 RSS/RSRP 和其他特征则不灵敏(公开)。
为直观起见,咱们在图 2 中绘制了第一个数据集在地理区域上的数据。图中的色彩表明用户 ID,很明显,咱们不能仅凭地理方位就轻易揣度出用户 ID。3.2.要挟模型
敌方将设法获取尽或许多的用户特征陈述,包含 (, 1 , 2 , 3 ,…) 。由于敌方寻求的首要信息或许不会明确地出现在陈述中,例如,假如陈述被故意混杂,敌方就会执行推理攻击来估量他们想要的用户隐私信息。要挟的性质或许因具体的移动数据运用和对手的才能而有所不同。有鉴于此,咱们将以下特点视为要挟模型界说的一部分:
- 对手是否可以直接拜访单个用户的陈述,或者其拜访权限是否仅限于一切用户的汇总陈述;
- 是否应假定对手具有有束缚的核算资源;
- 对手是否可以拜访相关的侧边信息;以及 – 用户首要关怀的是均匀状况下仍是最坏状况下他们的陈述中或许露出的私家信息。
侧边信息是指敌方或许取得的任何额外信息,可用于补充从用户陈述中搜集的信息,从而进步推理攻击的功率。这或许包含美国人口普查局或交通部等组织的公共数据库,这些数据库答应对手将数据特征(如地址和姓名)联系起来。典型的移动网络数据要挟模型: 关于大多数移动网络数据运用和用户,咱们选用以下要挟模型:
- 敌方可以直接拜访单个用户的陈述,
- 敌方的核算资源是有束缚的。
- 敌方获取侧边信息的途径有限,
- 用户首要关注的是均匀隐私露出。
3.3. Data obfuscation and privatizers
为了防范对手的要挟,可以在向服务供给商发布个人用户供给的特征数据之前对其进行混杂处理,从而维护隐私。特征集至少要去掉用户 ID。然后依据所选的私有化计划(简称 “私有化计划”)对剩余的特征数据进行混杂处理。之所以需求这样做,是由于对手或许会从数据中学到将公共特征和私家特征联系起来的模式,因而只对私家特征进行混杂是不够的。
私有化器将生成一份混杂的丈量特征陈述(, 1 , 2 , 3 , …)→(1 , 2 , 3 , …),其间 表明 的混杂版别,其间的映射取决于私有化器的规划。咱们将考虑几种私有化器,详见第 5 节。有些私有化程序在规划时会运用实践的用户数据。咱们假定这些数据是经过挑选性调查和服务供给商激励机制搜集的,或者是由供给商经过其他方法搜集的,例如经过巡查。
3.4 上下文
表 2 比较了不同隐私维护器运用的上下文数量以及它们能维护哪些要挟模型特点。LDP 供给的隐私维护比其他隐私维护器更强,由于它能在最坏状况下供给隐私确保,以应对任何或许具有无限资源和侧面信息拜访权的对手。不过,它没有正式的机制来确保最低水平的功效。比较之下,GAP 和 IT 可以感知特定运用的功效方针,并将其归入优化设置中,从而供给功效确保。特别是 GAP 私有化器,它优化的是一个一起考虑隐私和功效的多方针函数。尽管如此,它经过优化后,只能针对其练习循环中的特定对手供给形式上的确保。第 5 节将具体评论不同混杂办法之间的这些基本差异,第 6 节将具体介绍和评论它们对隐私与功效权衡的影响。
3.6. Signal map model
服务供给商依据汇总的用户数据练习 RSS 猜测器,使其可以生成精确的信号图。具体来说,模型输入特征包含(混杂的)纬度、经度和其他特征(即 (1 , 2 , , > 3)),模型输出为以 dBm 为单位的 RSS 值3。关于 RSS 猜测模型的研讨由来已久,拜见文献 [51-53]。咱们首要考虑了一个简略的路径损耗模型 [54],但发现其精确性不高。咱们还考虑了一个线性模型和一个神经网络模型,发现两者的精确度相当,但前者更容易操作。值得注意的是,前者的参数可以经过一个步骤预算,这使咱们可以更高效地核算特定运用的功效方针(见第 4.2 节)。因而,咱们挑选了一个线性 RSS 猜测模型。具体来说,咱们运用以下模型:
其间, 是丈量中的特征总数,=[0,…,−1] = [_0 , …, _{-1}] 是参数向量。给定一组 丈量值 =[] = [_{}] 其间 = 1, …, 和 = 1, … , (” “是特征的数量),RSS 猜测模型的参数向量可经过线性回归预算如下:
4. 方针界说
4.1. 隐私
让 表明每批丈量的次数。 = [ ], = 1 …表明每次搜集丈量的用户 ID ,u=[ui]hat{u}=[hat{u}_{i}] 是对手对的估量值。对手核算或许用户 ID 空间的概率散布,并为每次丈量挑选或许性最大的用户 ID 估量值。咱们将对手估量的精确度界说为用户 ID 估量正确率,即
其间,假如估量正确,方针函数 1ui=ui1_{hat{u}_i=u_i} 等于 1,否则为 0。由于高精确度值对应低隐私值,咱们将第一个隐私衡量界说为
咱们的第二个隐私衡量方针是真实方位与敌方估量方位之间的欧氏间隔,该间隔是批次的均匀值,界说为
由于在咱们的运用中,用户 ID 和方位都被视为隐私和灵敏信息,因而咱们进一步界说了以下归纳隐私衡量:
4.2. 功效
第一个方针经过输入和混杂数据之间的 L2 范数间隔(对一切 批量丈量进行均匀)来量化数据集的整体失真,考虑一切 特征:
第二个功效方针与 3.6 节中描述的 RSS 猜测模型相关。回想一下,服务供给商的方针是依据聚合的用户数据估量精确的 RSS 猜测模型。但是,关于混杂的用户数据,RSS猜测模型的估量参数与未混杂的用户数据估量的参数不同(即估量参数向量从变为,见方程(2))。为了最小化它们之间的差异,咱们将第二个功效函数界说为 和 之间的 L1 范数间隔的相反函数,如下所示:
设想服务供给商在实践中或许关怀多个特定于运用程序的功效方针(如 2),咱们进一步界说复合功效方针 (, ) 为
5. Privatizers
在本节中,咱们将具体介绍代表不同类型混杂计划的四种私有化器。具体来说,咱们首要挑选高斯噪声添加型私有化器作为基准,由于它简略易用。然后,咱们依据众所周知的差分保密优势,挑选了部分差分保密器(LDP)。然后,咱们挑选了根据 GAN 的私有化器(简称为 GAP 私有化器),由于最近人们对如何运用敌对性学习来练习私有化器,并将其定位为敌对性学习很感兴趣。最终,咱们挑选了所谓的 IT 私有化器,由于它很好地代表了运用互信息作为隐私衡量和优化来优化混杂规划的混杂计划。
生成式敌对隐私
生成式敌对隐私(Generative Adversarial Privacy)是一种数据驱动的混杂办法,它经过在最小博弈(minimax game)中将私有化者和敌对者彼此定位来学习私有化战略[14,21]。咱们的私有化器是一个全连接的前馈神经网络,其结构与对手类似。它有两层躲藏层,每层有 256 个单元。在层与层之间,咱们选用了整流线性单元(ReLU)激活,而优化则依赖于学习率为 0.001 的自适应矩估量(Adam)随机梯度下降法。咱们的私有化器接收大小为 的输入批次,输出 的混杂数据批次,其间每个丈量值都是独立混杂的。(咱们将在第 6.2 节中评论将丈量数据分组,然后一起进行混杂处理的状况)。咱们的私有化者希望最小化以下丢失函数
其间, 是式 (12) 中界说的归纳功效方针, 是式 (7) 中界说的对手丢失函数,它是归纳隐私方针的可微分版别,取决于对手对用户 ID 和方位的估量误差。请注意,跟着对手丢失的削减(意味着隐私削减),私有化者的丢失也会添加。与隐私丢失比较, 量化了对功效丢失的赏罚。当 ⟶ 1 时,功效丢失对私有者的影响较大;当 ⟶ 0 时,隐私丢失对私有者的影响较大。咱们选用迭代办法来练习这两个神经网络。咱们首要练习敌对者,具体来说,咱们固定私有化者的神经网络(NN)权重,并沿着 的负梯度扰动敌对者的 NN 权重,继续 个历元。然后,咱们练习私有化器,即沿着 的负梯度扰动私有化器的 NN 权重 个历元,如此重复。当两者都收敛后,咱们就找到了最小博弈的均衡点。然后,咱们在测验过程中固定两个 NN 的权重。GAP 私有化器在其丢失函数中归入了隐私和功效方针,并运用与评估私有化器相同的丢失函数对对手进行练习。
5.4. 信息论隐私
关于这种办法,咱们在正式的优化框架下,以可分析的方法考虑隐私与功效的权衡。考虑到 ∈ 和 ∈ 分别是描述输入数据和混杂数据的随机变量,咱们的 IT 私有化器试图最小化互信息(; ),见公式 (8),并受到功效束缚。私有化者由条件概率散布 指定。
咱们经过将其重写为一个拉格朗日函数来处理这个受限最小化问题,该函数的最优点是挑选变量域上的全局最小值和卡氏-库恩-塔克(KKT)乘数上的全局最大值[60]。下面咱们将分析 KKT 条件,从而得出最优解的要害观察成果:
求解最优条件概率散布,咱们可以看到咱们取两边之和、
然后,咱们将其代入公式 (20),得到 ∗ 的表达式: