数据库***技术
通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:可确切***某个人的列,称为可识别列,如身份号,地址以及姓名等。单列并不能***个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究称,仅使用邮编号,生日和性别信息即可识别87%的美国人。包含用户敏感信息的列,如交易数额,***以及收入等。其他不包含用户敏感信息的列。
为什么需要数据库***?
所谓避免隐私数据***,是指避免使用数据的人员( 数据分析师,BI 工程师等)将某行数据识别为某个人的信息。数据***技术通过对数据进行***,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2 (转换后)半识别列,#3 敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与较大化挖掘数据价值的平衡。
动态数据库***实现机制
用户的数据请求被代理实时在线拦截并经***后返回,此过程对于用户及应用程序完全透明。这种机制的***判断是在数据容器外实现,因而能够适用于非关系型数据库,如大数据环境。***代理部署在数据容器的出口处以网关方式运行,检测并处理所有用户与服务器间的数据请求及响应。它的好处是,无需对数据存储方式及应用程序代码做出任何更改。代理实现数据***的具体方法是查询语句或响应语句替换。代理能自动识别目标为敏感数据的查询语句,并将语句改写为不包含敏感字段,或对敏感字段进行变换处理的查询语句。查询结果返回代理时,会被重新计算、修改并包装为与原请求一致的格式交付用户,从而完成一次敏感信息的查询过程,
数据库***方案
1、无效化方案在处理待***的数据时,通过对字段数据值进行 截断、加密、隐藏 等方式让敏感数据***,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户***查询。比如我们将身份号用 * 替换真实数字就变成了 '220724 ****** 3523',非常简单。
2、随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。我们看到 name 和 idnumber 字段进行了随机化***,而名字姓、氏随机化稍有特殊,需要有对应姓氏字典数据支持。
3、数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机统一设置成 “13651300000”。
4、对称加密是一种特殊的可逆***方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥可以***原始数据,要注意的就是密钥的安全性。
5、平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使***后的值在均值附近随机分布,从而保持数据的总和不变。
版权所有©2025 产品网