内蒙古自治***数据资产分类分级硬件信息推荐金华博通

作者：北京金华博通2022/7/13 1:54:02

数据库***技术

通常在大数据平台中，数据以结构化的格式存储，每个表有诸多行组成，每行数据有诸多列组成。根据列的数据属性，数据列通常可以分为以下几种类型:可确切***某个人的列，称为可识别列，如身份号，地址以及姓名等。单列并不能***个人，但是多列信息可用来潜在的识别某个人，这些列被称为半识别列，如邮编号，生日及性别等。美国的一份研究称，仅使用邮编号，生日和性别信息即可识别87%的美国人。包含用户敏感信息的列，如交易数额，***以及收入等。其他不包含用户敏感信息的列。

为什么需要数据库***？

所谓避免隐私数据***，是指避免使用数据的人员( 数据分析师，BI 工程师等)将某行数据识别为某个人的信息。数据***技术通过对数据进行***，如移除识别列，转换半识别列等方式，使得数据使用人员在保证可对#2 (转换后)半识别列，#3 敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户，达到保证数据安全与较大化挖掘数据价值的平衡。

动态数据库***实现机制

用户的数据请求被代理实时在线拦截并经***后返回，此过程对于用户及应用程序完全透明。这种机制的***判断是在数据容器外实现，因而能够适用于非关系型数据库，如大数据环境。***代理部署在数据容器的出口处以网关方式运行，检测并处理所有用户与服务器间的数据请求及响应。它的好处是，无需对数据存储方式及应用程序代码做出任何更改。代理实现数据***的具体方法是查询语句或响应语句替换。代理能自动识别目标为敏感数据的查询语句，并将语句改写为不包含敏感字段，或对敏感字段进行变换处理的查询语句。查询结果返回代理时，会被重新计算、修改并包装为与原请求一致的格式交付用户，从而完成一次敏感信息的查询过程，

数据库***方案

1、无效化方案在处理待***的数据时，通过对字段数据值进行截断、加密、隐藏等方式让敏感数据***，使其不再具有利用价值。一般采用特殊字符（*等）代替真值，这种隐藏敏感数据的方法简单，但缺点是用户无法得知原数据的格式，如果想要获取完整信息，要让用户***查询。比如我们将身份号用 * 替换真实数字就变成了 '220724 ****** 3523'，非常简单。

2、随机值替换，字母变为随机字母，数字变为随机数字，文字随机替换文字的方式来改变敏感数据，这种方案的优点在于可以在一定程度上保留原有数据的格式，往往这种方法用户不易察觉的。我们看到 name 和 idnumber 字段进行了随机化***，而名字姓、氏随机化稍有特殊，需要有对应姓氏字典数据支持。

3、数据替换与前边的无效化方式比较相似，不同的是这里不以特殊字符进行遮挡，而是用一个设定的虚拟值替换真值。比如说我们将手机统一设置成 “13651300000”。

4、对称加密是一种特殊的可逆***方法，通过加密密钥和算法对敏感数据进行加密，密文格式与原始数据在逻辑规则上一致，通过密钥可以***原始数据，要注意的就是密钥的安全性。

5、平均值方案经常用在统计场景，针对数值型数据，我们先计算它们的均值，然后使***后的值在均值附近随机分布，从而保持数据的总和不变。

分享到 QQ空间新浪微博腾讯微博

北京金华博通信息技术有限公司