数据库***技术
通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:可确切***某个人的列,称为可识别列,如身份号,地址以及姓名等。单列并不能***个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究称,仅使用邮编号,生日和性别信息即可识别87%的美国人。包含用户敏感信息的列,如交易数额,***以及收入等。其他不包含用户敏感信息的列。
为什么需要数据库***?
所谓避免隐私数据***,是指避免使用数据的人员( 数据分析师,BI 工程师等)将某行数据识别为某个人的信息。数据***技术通过对数据进行***,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2 (转换后)半识别列,#3 敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与较大化挖掘数据价值的平衡。
数据库******风险模型
是对所有可标识列进行移除或是***,使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工(知道某个人的姓名,邮编,生日,性别等)或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值,并与大数据平台数据进行匹配,从而得到特定个人的敏感信息。如果攻击者知道某用户的邮编和年龄,就可以得到该用户的***敏感信息。为了避免这种情况的发生,通常需要对半标识列进行***处理,如数据泛化等。数据泛化是将半标识列的数据替换为语义--致但更通用的数据,已上述数据为例,对邮编和年龄泛化后的数据。
版权所有©2025 产品网