GB/T 45782-2025 生物技术 生命科学中数据格式和描述的要求
GB/T 45782-2025 Biotechnology—Requirements for data formatting and description in the life sciences
基本信息
本文件适用于在生命科学领域为其他目的而系统地采集、记录或整合数据及相应元数据的人工或计算工作流程。
本文件规定了人工获得的原始实验或程序数据以及机器生成数据的格式要求。本文件还规定了生命科学领域中数据和相应元数据的存储、共享、访问、互操作性和重复使用等方面的要求。
本文件规定了从生命科学领域的自动化高通量工作流程中系统获取大量数据的要求,以及通过其他生命科学技术和人工数据获取的大小规模数据集的要求。
本文件适用于生物技术和生命科学中的许多领域,包括但不限于:生命科学所有领域的基础/应用研究,以及工业、医学、农业、或环境生物技术(不包括用于诊断或治疗目的)及其方法学驱动的领域,如基因组学(包括大规模并行测序、宏基因组学、表观基因组学和功能基因组学)、转录组学、翻译组学、蛋白质组学、代谢组学、脂质组学、糖组学、酶学、免疫化学、合成生物学、系统生物学、系统医学及相关领域。
发布历史
-
2025年05月
文前页预览
研制信息
- 起草单位:
- 中国测试技术研究院、深圳华大生命科学研究院、中国科学院北京基因组研究所(国家生物信息中心)、深圳华大基因科技有限公司、西安交通大学、圣湘生物科技股份有限公司、菁良科技(深圳)有限公司、中国科学院天津工业生物技术研究所、瑞孚迪生物医学(上海)有限公司、华中农业大学
- 起草人:
- 周李华、麻凯龙、赵文明、易艳、李生斌、魏晓锋、吴康、章张、吴洽庆、成诚、王伟文、周斌、林木飞、杨丽、王洁雨、姜展樾、吴昊、阎加培、李倩一
- 出版信息:
- 页数:56页 | 字数:96 千字 | 开本: 大16开
内容描述
ICS07080
CCSA.40
中华人民共和国国家标准
GB/T45782—2025/ISO206912022
:
生物技术生命科学中数据格式和
描述的要求
Biotechnology—Requirementsfordataformattinganddescription
inthelifesciences
ISO206912022IDT
(:,)
2025-05-30发布2025-09-01实施
国家市场监督管理总局发布
国家标准化管理委员会
GB/T45782—2025/ISO206912022
:
目次
前言
…………………………Ⅲ
引言
…………………………Ⅳ
范围
1………………………1
规范性引用文件
2…………………………1
术语和定义
3………………1
生命科学中数据对实体和概念描述的建议和要求
4……………………7
通则
4.1…………………7
推荐的生物和概念实体通用标识符方案
4.2…………7
生物实体和概念的数据格式化和语境描述性数据元数据
4.3()……8
数据格式的技术和组织的建议与要求
5…………………9
概述
5.1…………………9
组织责任
5.2……………10
文档
5.3…………………10
版本控制和变更日志
5.4………………10
兼容性
5.5………………10
可扩展性
5.6……………10
压缩
5.7…………………10
结构和控制元素
5.8……………………11
数据格式中数据类型的要求
5.9………………………11
一致性和兼容性
5.10…………………12
数据完整性
5.11………………………12
格式验证
5.12…………………………12
数据溯源
5.13…………………………12
语义推荐和数据格式要求
6………………12
通则
6.1…………………12
生物数据注释的最小共识
6.2…………13
语法和实体化
6.3………………………16
适用于生物数据注释的术语和本体论的要求
7…………16
通则
7.1…………………16
生物本体论的要求
7.2…………………16
领域特定数据标准的要求
8………………17
概述
8.1…………………17
领域特定数据标准的具体要求
8.2……………………17
Ⅰ
GB/T45782—2025/ISO206912022
:
生物数据存储库的要求
9…………………18
通则
9.1…………………18
生物数据存储库的要求
9.2……………18
附录资料性生命科学中数据常见格式示例
A()………20
概述
A.1………………20
组学生物化学和分子生物学方法的数据格式
A.2OMICS()、………20
生物成像数据的格式
A.3……………28
应用于生物系统计算机模型的数据格式
A.4………29
应用于生命科学模型模拟及其结果的数据格式
A.5………………30
用于数据和模型质量测量的描述符
A.6……………30
附录资料性数据模型和元数据的最低报告标准
B()、………………31
概述
B.1…………………31
最低报告标准
B.2………………………31
特定领域的本体论分类法和受控词汇表
B.3、………33
参考文献
……………………40
Ⅱ
GB/T45782—2025/ISO206912022
:
前言
本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定
GB/T1.1—2020《1:》
起草
。
本文件等同采用生物技术生命科学中数据格式和描述的要求
ISO20691:2022《》。
请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任
。。
本文件由全国生化检测标准化技术委员会提出并归口
(SAC/TC387)。
本文件起草单位中国测试技术研究院深圳华大生命科学研究院中国科学院北京基因组研究所
:、、
国家生物信息中心深圳华大基因科技有限公司西安交通大学圣湘生物科技股份有限公司菁良科
()、、、、
技深圳有限公司中国科学院天津工业生物技术研究所瑞孚迪生物医学上海有限公司华中农业
()、、()、
大学
。
本文件主要起草人周李华麻凯龙赵文明易艳李生斌魏晓锋吴康章张吴洽庆成诚
:、、、、、、、、、、
王伟文周斌林木飞杨丽王洁雨姜展樾吴昊阎加培李倩一
、、、、、、、、。
Ⅲ
GB/T45782—2025/ISO206912022
:
引言
生命科学研究及其成果在生物技术诊断和制药等领域的应用依赖于从广泛检测生物学功能研
、,、、
究以及流程描述实验室和现场测量中获得的复杂数据这包括将衍生数据用于生物生物技术和生理
、。、
过程的计算重建建模和模拟以及它们在生物技术工作流程中的应用由数据驱动的生命科学和生
、、,。
物技术研究跨越了广泛的生物科学和生物技术领域及应用例如人类健康基因工程生物环境科学农
(、、、
业生物修复测序色谱分析显微镜技术等只有通过使用计算方法对数据进行一致的描述
、、DNA、、)。、
结构化和集成生命科学中的数据驱动数据密集和大数据分析方法才有可能实现格式设计影响数据
,、。
的存储表示意义解释交换和再利用本文件通过为生命科学中数据的记录处理再利用和交换设
、、、、。、、
定基本要求满足建立一个可互操作和明确无误的数据记录描述和传输框架的关键需求从而提升利
,、,
用率和实现数据价值最大化
。
不同来源不同时间记录的生命科学中数据必须是可查找可访问可互操作和可重复使用
、、、(F-A-I-R)
的数据集只有在可访问且以结构良好格式一致的方式存储时才具有价值和有用性不受时间和平
。、,。
台限制的格式可确保数据版本控制数据归档以及数据溯源完整且可更新的元数据即描述数据的数
、。(
据有助于数据的定位使用和分析本文件提供了标准化可互操作生命科学中数据格式的要求和建
)、。
议为生物技术和生物领域社群定义的许多不同子领域特定的数据格式和描述标准提供了概念框架并
,,
给出了相关参考为了便于利用所引用的特定领域格式化和描述标准及其协同互作本文件描述了一
。,
个最低要求和规则的独立技术框架因此本文件提供了相关子领域总体数据格式和通俗的描述规则
。,
与指南作为跨域数据集成的基础此外还提供了创建特殊子领域的特定标准确保互操作性及实
,。,()、
现这些标准的规则和指南
。
Ⅳ
GB/T45782—2025/ISO206912022
:
生物技术生命科学中数据格式和
描述的要求
1范围
本文件规定了生命科学包括生物技术和生物医学以及非人类生物研究和开发中数据和相应元数
()
据即描述数据及其语境的数据的一致格式和文档的要求它为生命科学中的数据呈现提供了可查
()。
找可访问可互操作和可重复使用的指导
、、。
本文件适用于在生命科学领域为其他目的而系统地采集记录或整合数据及相应元数据的人工或
、
计算工作流程
。
本文件规定了人工获得的原始实验或程序数据以及机器生成数据的格式要求本文件还规定了生
。
命科学领域中数据和相应元数据的存储共享访问互操作性和重复使用等方面的要求
、、、。
本文件规定了从生命科学领域的自动化高通量工作流程中系统获取大量数据的要求以及通过其
,
他生命科学技术和人工数据获取的大小规模数据集的要求
。
本文件适用于生物技术和生命科学中的许多领域包括但不限于生命科学所有领域的基础应用
,:/
研究以及工业医学农业或环境生物技术不包括用于诊断或治疗目的及其方法学驱动的领域如
,、、、(),
基因组学包括大规模并行测序宏基因组学表观基因组学和功能基因组学转录组学翻译组学蛋
(、、)、、、
白质组学代谢组学脂质组学糖组学酶学免疫化学合成生物学系统生物学系统医学及相关
、、、、、、、、
领域
。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文
。,
件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于
,;,()
本文件
。
日期和时间信息交换表示法第部分基本原则
ISO8601-11:[Dateandtime—Representations
forinformationinterchange—Part1:Basicrules]
注日期和时间信息交换表示法第部分基本原则
:GB/T7408.1—20231:(ISO8601-1:2019,IDT)
日期和时间信息交换表示法第部分扩展
ISO8601-22:[ISO8601-2Dateandtime—Rep-
resentationsforinformationinterchange—Part2:Extensions]
3术语和定义
下列术语和定义适用于本文件
。
31
.
美国信息交换标准码AmericanStandardCodeforInformationInterchangeASCII
;
电子通信字符编码标准
。
注1代码表示计算机电信设备和其他设备中的文本
:ASCII、。
注2大多数现代字符编码方案都基于尽管它们支持许多其他字符在文件中每个字母数字或特
:ASCII,。ASCII,、
殊字符都用一个位二进制数个或的字符串表示定义了个可能的字符
7(701)。128。
注3中记录了位
:ISO/IEC6467ASCII。
1
定制服务
推荐标准
- DB41/ 204-2000 红薯品种 豫薯9号 2000-12-07
- DB41/ 209-2000 豇豆品种 豫豇豆1号 2000-12-07
- DB41/ 207-2000 高粱品种 豫粱7号 2000-12-07
- DB41/ 210-2000 小麦品种 豫麦20号 2000-12-07
- DB41/ 202-2000 谷子品种 豫谷6号 2000-12-07
- DB41/ 206-2000 高粱品种 豫粱6号 2000-12-07
- DB41/ 211-2000 小麦品种 豫麦21号 2000-12-07
- DB41/ 205-2000 大麦品种 豫大麦2号 2000-12-07
- DB41/ 203-2000 红薯品种 豫薯8号 2000-12-07
- DB41/ 201-2000 谷子品种 豫谷5号 2000-12-07