DB33/T 1360-2024 公共数据脱敏技术规范
DB33/T 1360-2024 Public data deidentification technology specification
基本信息
发布历史
-
2024年03月
研制信息
- 起草单位:
- 起草人:
- 出版信息:
- 页数:26页 | 字数:- | 开本: -
内容描述
ICS 35.240.01
CCS L67
33
浙江省地方标准
DB33/T1360—2024
公共数据脱敏技术规范
Technicalspecificationforpublicdatadesensitization
2024-03-20发布2024-04-20实施
浙江省市场监督管理局 发布
DB33/T1360—2024
目次
前言..................................................................................II
1范围................................................................................1
2规范性引用文件......................................................................1
3术语和定义..........................................................................1
4数据脱敏基本原则....................................................................1
有效性..........................................................................1
真实性..........................................................................1
稳定性..........................................................................2
一致性..........................................................................2
高效性..........................................................................2
5数据脱敏总体架构....................................................................2
6数据脱敏技术........................................................................3
脱敏算法........................................................................3
脱敏规则和策略..................................................................3
7数据脱敏场景........................................................................3
数据加工........................................................................3
数据共享........................................................................3
数据开放........................................................................3
数据利用........................................................................4
数据开发测试....................................................................4
数据运维........................................................................4
8数据脱敏实施........................................................................4
敏感数据识别....................................................................4
脱敏权限分配....................................................................4
脱敏规则和策略配置..............................................................4
脱敏效果评估....................................................................5
脱敏数据标识....................................................................5
数据脱敏审计....................................................................5
9数据脱敏过程评价....................................................................6
附录A(资料性)数据脱敏技术..........................................................7
附录B(资料性)脱敏工具选择示例.....................................................19
附录C(资料性)脱敏效果评估方法示例.................................................20
I
DB33/T1360—2024
前言
本标准按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别专利的责任。
本标准由浙江省大数据发展管理局提出、归口并组织实施。
本标准起草单位:浙江省大数据发展中心、数字浙江技术运营有限公司、联通数字科技有限公司、
杭州安恒信息技术股份有限公司、杭州美创科技股份有限公司、北京神州绿盟科技有限公司、北京天融
信网络安全技术有限公司、杭州深普科技有限公司、杭州市数据资源管理局、宁波市大数据发展管理局、
温州市大数据发展管理局、湖州市大数据发展管理局、嘉兴市政务服务和数据资源管理办公室、绍兴市
大数据发展管理局、金华市大数据发展管理局、衢州市大数据发展管理局、舟山市大数据发展管理局、
台州市大数据发展管理局、丽水市大数据发展管理局。
本标准主要起草人:王瑚、陈登、蒋迪、张纪林、赵程遥、金永勤、张斌、范世育、笪猛霄、屠勇
刚、包自毅、张新丰、周建良、徐振华、张晓玮、杜战、吕跃华、黄亮、洪吉明、党铮铮、樊兴悦、陈
琼、郑嘉俊、吕周亮、尹小飞、俞弘毅、吴怡、陈林、王冬茜、胡瑞玉、周文、徐逸倩、王沁怡、甄理、
俞巍滔、刘凯、徐津津、杜辉、吴梦琪、李思超、邹任芯、张昱、黄澜、谢国杰、孙茂阳、曾露、俞文
群、蔡东山、叶其蕾、林丽丝、汪亚东、许彪、毛蕾、黄怡、韩建良、徐道成、邵建峰、徐李锐、周榜
中、王海斌、李永孟、林国、陈余超、陈马涛、吴雨鑫。
II
DB33/T1360—2024
公共数据脱敏技术规范
1范围
本标准规定了公共数据脱敏的基本原则、总体架构、脱敏技术、脱敏场景、脱敏实施以及过程评价。
本标准适用于各级公共数据主管部门、公共管理和服务机构以及使用公共数据的组织、个人开展公
共数据脱敏工作。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本标准必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本标准;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
标准。
GB/T25069信息安全技术术语
GB/T37988信息安全技术数据安全能力成熟度模型
DB33/T2487公共数据安全体系建设指南
3术语和定义
GB/T25069、GB/T37988、DB33/T2487界定的以及下列术语和定义适用于本标准。
公共数据publicdata
国家机关、法律法规规章授权的具有管理公共事务职能的组织以及供水、供电、供气、公共交通等
公共服务运营单位(以下统称公共管理和服务机构),在依法履行职责或者提供公共服务过程中收集、
产生的数据。
敏感数据sensitivedata
具备一定的隐私性,一旦泄露可能会对个人、政府部门、企业、组织等产生危害的数据。
数据脱敏datadesensitization
通过一系列数据处理方法,在不影响数据分析和处理任务的前提下对原始数据进行处理以屏蔽敏感
信息的一种数据保护方法。
4数据脱敏基本原则
有效性
数据经过脱敏处理后,原始信息中包含的敏感信息已被屏蔽,并确保脱敏后的公共数据在数据汇聚、
关联分析等操作过程中无法产生敏感数据。
真实性
1
DB33/T1360—2024
脱敏后的数据需保持原始数据真实特征,包括以下方面:
a)原数据的格式;
b)原数据的类型;
c)原数据之间的依存关系;
d)语义完整性;
e)引用完整性;
f)数据的统计、聚合特征;
g)频率分布。
稳定性
相同的原始数据在脱敏策略一致的前提下,每次脱敏效果相同。
一致性
脱敏后的数据保留原始数据的主外键关系、业务包含关系。
高效性
在确保安全的同时,数据脱敏实施应尽可能减少时间和经济成本。
5数据脱敏总体架构
数据脱敏总体架构如图1。
图1数据脱敏总体架构
数据脱敏主要涉及脱敏技术、脱敏实施、脱敏场景和脱敏过程评价四个要素:
a)脱敏技术:脱敏技术(见附录A)主要包括脱敏算法、脱敏规则和策略,脱敏算法有泛化、抑
制、随机化、加密和统计等技术(见附录A.1);脱敏规则和策略(见附录A.2)制定的要素
包括脱敏数据项、脱敏算法、脱敏算法附加值和脱敏算法作用域;
b)脱敏实施:选用脱敏工具(见附录B)或人工方式实施脱敏,脱敏流程主要包括敏感数据识别、
脱敏权限分配、脱敏策略配置及执行、脱敏效果评估、脱敏数据标识、数据脱敏审计;
c)脱敏场景:数据脱敏场景主要涉及数据处理活动各阶段;
2
DB33/T1360—2024
d)脱敏过程评价:对数据脱敏实施过程进行评价,确保脱敏工作正确、完整地执行,促进脱敏流
程优化,确保数据脱敏实施过程的合规性和有效性。
6数据脱敏技术
脱敏算法
6.1.1泛化
通过泛化技术对数据项进行概括、抽象处理,包括:时间偏移、截取、截断、分档、归零等。
6.1.2抑制
通过抑制技术对数据项进行屏蔽或数据记录进行限制,包括:遮盖、限制返回行、限制返回列等。
6.1.3随机化
通过随机化技术对数据项进行随机化处理,代替原来的真实值,包括:随机映射、固定映射、范围
内随机、浮动、重排等。
6.1.4加密
通过加密技术对数据进行处理,包括:对称密码算法、公钥密码算法、密码杂凑算法等。
6.1.5统计
统计技术是利用统计学原理,对数据集进行相关的处理,包括:抽样、聚合等。
脱敏规则和策略
脱敏规则和策略主要包括如下要素:
a)脱敏数据项:应根据数据级别、脱敏场景、数据关联情况等确定需脱敏的数据项;
b)脱敏算法:应根据数据类型、数据级别、脱敏场景、数据集大小、数据分布和关联情况等确
定脱敏算法;
c)脱敏算法附加值:应根据脱敏场景和算法类型等,选择算法附加值,如随机种子、遮盖符、
密钥、盐值等;
d)脱敏算法作用域:应根据数据特征、关联情况等,确定脱敏数据项中脱敏算法作用的区域。
7数据脱敏场景
数据加工
对数据进行转换、汇聚、分析等加工处理时,宜采用抑制、随机化等算法构建脱敏规则和策略,将
敏感数据进行脱敏后再进行加工处理。
数据共享
通过一体化智能化公共数据平台共享数据时,可采用抑制、随机化等算法构建脱敏规则和策略,将
敏感数据脱敏后再进行共享。
数据开放
3
DB33/T1360—2024
通过数据开放网站、开放域、授权运营域等面向社会提供数据时,应采用抑制、随机化等算法构建
脱敏规则和策略,将敏感数据脱敏后再进行开放。
数据利用
利用数据履行公共管理和公共服务职责时,可采用泛化、抑制、统计等算法构建脱敏规则和策略,
将敏感数据脱敏后再使用。
数据开发测试
系统测试、联调时,应采用泛化、抑制、统计等算法构建脱敏规则和策略,将敏感数据脱敏后再使
用。
数据运维
进行数据监控、维护、审计等操作时,宜采用抑制、随机化等算法构建脱敏规则和策略,将访问的
敏感数据进行脱敏。
8数据脱敏实施
敏感数据识别
对元数据和数据内容进行识别,发现并标识敏感数据(见附录A.3),过程需要符合下列要求。
a)技术要求:
1)应对主流数据库、大数据平台、文件存储系统等进行数据内容识别;
2)应采用数据识别或人工梳理方式获取数据信息,包括数据存储位置、数据内容、数据格
式等;
3)应根据公共数据分类分级结果标识数据所属类别和敏感程度;
4)应固化敏感特征,形成识别模板;
5)应识别在数据汇聚、关联分析等操作过程中产生的敏感数据。
b)安全要求:配置数据识别任务应尽量降低对生产系统的影响,主要措施包括限制识别范围、
优化识别周期、提升识别性能等。
脱敏权限分配
从系统管理、安全管理、审计管理三个维度,评估业务系统和数据使用方所需权限并授权,过程需
要符合下列要求。
a)技术要求:
1)系统管理应分配系统的资源和运行配置、控制和管理权限;
2)安全管理应分配脱敏任务的执行权限,包括敏感数据管理、脱敏策略配置、脱敏结果查
看等;
3)审计管理应该分配审计记录存储、管理和查询权限。
b)安全要求:
1)应实现用户的权限分离;
2)应对用户进行身份鉴别,保证权限真实且唯一,并对操作行为进行审计。
脱敏规则和策略配置
4
DB33/T1360—2024
选定脱敏规则和策略,执行脱敏任务,过程应符合下列要求。
a)技术要求:
1)脱敏规则和策略应覆盖所有敏感数据;
2)脱敏规则和策略应表述明确,具备可执行性和可转述性;
3)应监测脱敏执行过程,发现执行错误、配置错误、资源占用过高等执行异常情况及时告
警,必要时可中断脱敏执行过程。
b)安全要求:
1)应尽量降低对业务系统的影响,主要措施包括选定脱敏范围、优化脱敏执行周期、提升
脱敏处理性能等;
2)不应存储源数据。
脱敏效果评估
对脱敏后的数据进行效果评估,确保已达到预期脱敏效果(见附录C),过程应符合下列要求。
a)技术要求:
1)应评估数据特征是否变化;
2)应评估已知敏感信息是否去除;
3)应评估逆向恢复敏感数据的执行难度;
4)应评估数据结构和统计特征是否存在敏感性;
5)应评估脱敏后的数据是否满足使用需求。
b)安全要求:评估过程中产生的敏感数据应在评估完成后执行删除销毁操作。
脱敏数据标识
对脱敏后的数据进行重新标识,与原始数据区分,过程应符合下列要求。
a)技术要求:
应根据实际使用需要,标识数据脱敏状态为已脱敏,并标识敏感级别。
b)安全要求:
1)应保障数据标识不被恶意删除和篡改;
2)数据标识不应影响数据的结构、分析和使用。
数据脱敏审计
记录脱敏过程各个阶段相关信息,形成完备的脱敏日志完成审计分析、溯源追踪和监督检查,过程
应符合下列要求。
a)技术要求:
1)应审计数据源相关信息,包含数据源自身安全策略和权限信息等内容;
2)应审计脱敏工具配置信息,包含权限账号、敏感数据识别规则、脱敏算法、脱敏规则和策
略等关键配置信息等内容;
3)应审计脱敏过程各个阶段人员操作信息,包含登录、登出、任务执行、策略变更等人员操
作日志等内容;
4)应审计脱敏任务执行信息,包含任务创建、执行、查询、删除信息,任务报错信息等内容;
5)脱敏工具应具备审计日志外发的能力。
b)安全要求:
1)脱敏日志应保存不少于六个月;
2)脱敏日志应采取加密和校验机制,保障记录保密性和完整性。
5
DB33/T1360—2024
9数据脱敏过程评价
定期开展数据脱敏过程评价,评价过程包括:
a)组建评价团队,团队成员包括组织内部人员或第三方专业人员;
b)明确评价范围,全面涵盖脱敏场景、脱敏技术、脱敏工具、执行人员等;
c)制定评价指标,围绕敏感数据识别、脱敏权限分配、脱敏策略配置及执行、脱敏效果评估、
脱敏数据标识、数据脱敏审计等过程的技术和安全要求,结合实际制定评价指标;
d)选定评价方式,采用多种方式组合开展评价工作,包括资料查阅、人员访谈、功能演示、技
术检测等;
e)判定评价结果,收集并整理相关证明材料,组织召开相关会议确认评价结果,输出评价报告,
并对数据脱敏实施持续改进优化。
6
DB33/T1360—2024
A
A
附录A
(资料性)
数据脱敏技术
A.1脱敏算法详述及示例
脱敏算法详述及示例见表A.1。
表A.1脱敏算法详述及示例
序号脱敏算法算法说明示例
时间按随机位移量对时间进行向上或向下偏移例如时间2021101209:41:09按照10秒向下偏
1偏移并取整,可在保证时间数据一定分布特征移量、5秒取整量通过时间偏移取整脱敏即为
整取的情况下隐藏原始时间。2021101209:41:20。
例如设定开始位置:3,结束位置7,那么原数
截取是指对字符串按照起始位置、结束位
2截取据:helloworld采用截取算法脱敏结果为
置截取一定长度连续字符串。
llowo。
泛
例如设定起始位置:3,结束位置7,那么原数
化截断是指除去字符串起始位置、结束位置
3截断据:helloworld采用截断算法脱敏结果为
技之间内容,而保留其他内容。
herld。
术
例如将家庭年收入按照100万、50万、10万界
将数据按照预设条件规整到预定义的多个限分为高收入家庭、中等收入家庭、低收入家
4分档
区间档位,使原有数据模糊化。庭三个级别,家庭年收入数据用这三个级别代
替。
例如对于原数据:1234.55采用归零算法后脱敏
5归零归零是指对数据清空并置为0的处理。
结果为0.00。
遮盖是指通过设置遮盖符,对原数据全部例如身份证号330102198001011234采用遮盖算
6遮盖
或部分进行遮盖处理,比如设定遮盖符:*。法后脱敏结果为330102********1234。
抑限制
例如药品配方数据,只有在拿到所有配方数据
7制返回对返回数据集的行数进行限制。
后才具有意义,可在脱敏时仅返回一行的数据。
技行
术限制
例如在查询人员基本信息时,对于某些敏感列,
8返回对返回数据集的列数进行限制。
不包含在返回的数据集中。
列
随机映射是指采用了一定程度的随机性作例如将生日19941118通过随机映射脱敏为
随机
9为其逻辑的一部分,对数值、字符或字符20000220;脱敏后依然保障是一串生日特征的
映射
随串进行随机,并保留原业务特征。数据。
机固定映射是指设置映射种子,在映射种子例如设定映射种子:张映射为李,三映射为华;
固定
10化不变的情况下,相同的原始数据脱敏后结那么原数据张三通过固定映射算法后脱敏结果
映射
技果相同,并保留原始业务特征。为李华。
术范围范围内随机主要对日期或金额类型数据,例如设定范围1000至9999;那么对原金额数
11内随在一个指定的范围内进行随机,并保留原值365.00采用范围内随机脱敏后的脱敏结果:
机业务特征。8394.70。
7
DB33/T1360—2024
表A.1脱敏算法详述及示例(续)
序号脱敏算法算法说明示例
浮动是指对日期或金额类型数据,设置
例如设定下降8%;那么对原数据1000.00采用浮
12浮动上浮或下降固定值或百分比,并保留原
动脱敏后脱敏结果:920.00。
业务特征。
将原始数据按照特定的规则进行重新
13重排例如将原数据123456通过重排脱敏后为654321。
排列。
是一种对称加密或非对称加密技术,可例如原数据身份证号330328197802250113加密后
可逆以使用密钥对属性进行加解密来进行的变为64位的数字字母型的字符串:
14
加密数据脱敏和还原,常见于对id类数据207a4ae88e5dc7a70c7c2f0278c93fcd3534de58205
进行处理。需要对密钥进行妥善保护。f069dd890bf806d30a04e。
一般是使用散列(hash)函数等对数据
加进行处理,不可直接解密,需保存映射
密不可逆关系。常见于对id类数据进行处理。例如原数据身份证号330102198001011234散列脱
15
技加密由于hash函数的特性,会存在数据碰敏后变为:1950036935。
术撞的问题。这种方式用法简单,无需担
心密钥保护。
对于密文计算的结果,解密之后和明文
同态计算的结果是相同的,一般可以直接对例如加法同态加密:
16
加密密文进行运算。常见于对数值类型数据E(nx)=E(x+x+…+x)=E(x)+E(x)+…+E(x)=nE(x)。
进行处理。
通过采样抽取数据集中有代表性的子
集来对原始数据集进行分析和评估。这例如根据人口地域分布情况抽样10%的数据做统计
17抽样
种方式可以避免使用全量数据进行分分析,使得地域分布概率统计保持不变。
统析。
计经常用于统计分析中,使得脱敏后数据
技集的聚合特征(总值、平均值、最大值、
术最小值、环比增长、同比增长等)与原均化:例如10、15、20数据集总值45,平均值15,
18聚合
始数据集的的聚合特征保持相同,使用均化后为11、16、18。
统计值来反应原始数据集中的记录属
性。
8
DB33/T1360—2024
A.2脱敏算法详述及示例
部分常见敏感数据类型脱敏规则和策略配置示例见表A.2。
表A.2部分常见敏感数据类型脱敏规则和策略配置示例
序号类别敏感数据类型适用算法示例规则和策略示例
脱敏数据项:姓名
固定映射、脱敏算法:遮盖
随机映射、脱敏算法附加值:遮盖符为*
1姓名
加密、脱敏算法作用域:中间字、名
遮盖脱敏前:李四光
脱敏后:李**
脱敏数据项:电话号码
脱敏算法:遮盖
固定映射、
脱敏算法附加值:遮盖符为*
2电话号码随机映射、
脱敏算法作用域:电话号码后四位
遮盖
脱敏前:18556575859
脱敏后:1855657****
脱敏数据项:个人身份证号码
加密、脱敏算法:遮盖
个人固定映射、脱敏算法附加值:遮盖符为*
3个人身份证号码
随机映射、脱敏算法作用域:年份、月份、和日期
定制服务
推荐标准
- DB3310/T 98-2023 “台九鲜”区域公用品牌 通用要求 2023-05-04
- DB3305/T 275-2023 天然金黄茧蚕种繁育技术规程 2023-10-18
- DB3305/T 274-2023 现代小微企业评价指标体系 制造业 2023-10-18
- DB3310/T 101-2023 地理标志产品 大陈黄鱼 2023-07-18
- DB3301/T 1128-2023 高含油量油菜生产技术规程 2023-10-30
- DB3310/T 102-2023 市场采购贸易代理服务规范 2023-09-11
- DB3305/T 272-2023 碳普惠 纯电动汽车出行碳减排量核算规范 2023-10-18
- DB3310/T 100-2023 人大践行全过程人民民主基层单元建设规范 2023-06-06
- DB3310/T 55-2023 基层社会治理 全科网格管理规范 2023-07-18
- DB3305/T 273-2023 现代小微企业基本要求 2023-10-18