T/BIA 14-2023 药学数据集 药学相关的组学
T/BIA 14-2023 Pharmacological dataset Pharmacological-related omics data set
基本信息
发布历史
-
2023年04月
文前页预览
研制信息
- 起草单位:
- 中国医学科学院药物研究所、国家人口健康科学数据中心、中国医学科学院、中国医学科学院医学信息研究所、中国医学科学院基础医学研究所、北京师范大学
- 起草人:
- 李燕、侯玉芳、周伟、庞尔丽、吴思竹、孙伟、郭正光、郝志勇、张心苑、邓海东、罗葳、刘思齐、张晓宇、张胜发、叶铃、李赞梅
- 出版信息:
- 页数:37页 | 字数:- | 开本: -
内容描述
ICS01.040.19
CCSC10
T/BIA
团体标准
T/BIA14-2023
药学数据集药学相关的组学
Pharmaceuticaldataset-Omics
2023-04-17发布2023-04-18实施
北京信息化协会发布
T/BIA14-2023
目次
前言III
引言IV
1范围5
2规范性引用文件5
3术语和定义5
4数据元基本属性说明6
4.1数据元基本属性6
4.2标识符编码规则6
4.3数据元名称6
4.4说明6
4.5数据类型说明6
4.6表示格式说明7
4.6.1表示格式中字符含义描述规则7
4.6.2表示格式中字符长度描述规则7
4.7值域8
4.8约束/条件说明8
5概述8
6数据元8
6.1项目信息8
6.2研究信息9
6.3受试物信息10
6.4试验系统信息11
6.4.1试验系统信息——实验动物11
6.4.2试验系统信息——其他13
6.5试验方案信息14
6.6药学相关的基因组/转录组试验信息16
6.7药学相关的基因组/转录组测序反应信息17
6.8 药学相关的基因组/转录组测序获得信息19
6.9药学相关的蛋白质组试验信息20
6.10药学相关的质谱检测分析信息21
6.11药学相关的蛋白质组数据信息22
I
T/BIA14-2023
附录A(资料性)数据元值域代码表25
参考文献36
II
T/BIA14-2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由北京信息化协会提出。
本文件由北京信息化协会归口。
本文件起草单位:中国医学科学院药物研究所;国家人口健康科学数据中心;中国医学科学院;中
国医学科学院医学信息研究所;中国医学科学院基础医学研究所;北京师范大学。
本文件主要起草人:李燕、侯玉芳、周伟、庞尔丽、吴思竹、孙伟、郭正光、郝志勇、张心苑、邓
海东、罗葳、刘思齐、张晓宇、张胜发、叶铃、李赞梅。
本文件为首次发布。
III
T/BIA14-2023
引言
药学数据集包括药理学、药物代谢动力学、药物毒理学、药学相关的组学及化学五个部分。本文件
是药学数据集的组成部分之一,旨在为药学相关的组学研究提供一套术语规范、定义明确的基本数据元
标准,以规范信息记录内容,实现信息在收集、存储、发布、交换等应用中的一致性和可比性,保证药
学信息的有效交换、统计和共享,是药学数据清洗工具研发的基础。
IV
T/BIA14-2023
药学数据集药学相关的组学
1范围
本文件规定了药学相关的组学内容,包括项目信息、研究信息、受试物信息、试验系统信息、试验
方案信息、药学相关的基因组/转录组测序反应信息、基因组/转录组测序获得的数据信息、蛋白质组试
验信息、质谱检测分析信息、药学相关的蛋白质组数据信息,及编码规则、值域代码表。
本文件适用于临床前药物研究、技术优化、研发关键技术工具、数据库构建、数据共享等。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T31074科技平台数据元设计与管理
GB2312信息交换用汉字编码字符集基本集
GB3102.1-93空间和时间的量和单位
GB/T14666分析化学术语
8T/CHIA20人类基因测序原始数据汇交元数据标准
T/SZAS40蛋白质组学数据集
3术语和定义
下列术语和定义适用于本文件。
3.1
基因组学genomics
基因组学的概念最早于1986年由美国遗传学家ThomasH.Roderick提出。基因组学是对生物体所
有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。基因组学主要研究基因
组的结构、功能、进化、定位和编辑等,以及它们对生物体的影响。
3.2
转录组学transcriptomics
转录组学是指一门在整体水平上研究细胞、组织或生物体中基因转录的情况及转录调控规律的学
科。转录组学是从RNA水平研究基因表达的情况。转录组即一个活细胞所能转录出来的所有RNA的总
和,是研究细胞表型和功能的一种重要手段 。
3.3
蛋白质组学proteomics
5
T/BIA14-2023
是以蛋白质组为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学。这个概念最
早是在1994年,由MarcWilkins首先提出的新名词。蛋白质组学本质上指的是在大规模水平上研究蛋
白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上
的关于疾病发生,细胞代谢等过程的整体而全面的认识。
4数据元基本属性说明
4.1数据元基本属性
数据元标识符、数据元名称、英文名称、说明、数据类型、表示格式、计量单位、值域、约束条件。
4.2标识符编码规则
数据元标识符编码应遵循以下规则:
a)规范性引用文件中的数据元标识符编码规则适用于本文件对应数据元。
b)非引用类数据元标识符由2位大写英文字母与7位阿拉伯数字组成。按数据集首字母缩写、大
类代码、小类代码、顺序号从左至右顺序排列。结构见图1。
图1数据元标识符代码结构
图1中:
a)标识符前2位:数据集首字母缩写PD,用2位大写英文字母表示。
b)大类代码:用2位数字表示,从01开始顺序编码。
c)小类代码:用2位数字表示,数字大小无含义,在大类内进行排序,从01开始顺序编码。大
类代码与小类代码之间加“.”区分。
d)顺序号:用3位数字表示,数字大小无含义,在小类内进行排序,从001开始顺序编码。小
类代码与顺序号之间加“.”区分。
4.3数据元名称
数据元的名称是标识数据元的主要手段,简称“名称”。
4.4说明
关于数据元的含义和基本特征的说明,并使之区别于其他数据元。
4.5数据类型说明
数据元的数据类型说明见表1。
6
T/BIA14-2023
表1数据类型说明
数据类型表示符描述
通过字符形式表达的值的类型,可包含字母字符(a~z,A~Z)、
数字字符等(默认GB2312),其中:
S1:不可枚举型,表示数据元的允许值(值域)是不可枚举
的,且以字符描述;
字符型(string)S
S2:枚举型,表示数据元的允许值(值域)是可枚举的,通常
列表值不超过3个;
S3:引用型,数据元的允许值(值域)是可枚举的,当列表值超
过3个时通常会引用代码表
又称逻辑型,采用0(False)或1(True)形式表示的逻辑值的
布尔型(boolean)L
类型
数值型(number)N通过“0”到“9”数字形式表示的值的类型
日期型(date)D采用GB/T7408中规定的YYYYMMDD格式表示的值的类型
采用GB/T7408中规定的YYYYMMDDThhmmss格式表示的值的类型
日期时间型(datetime)DT
(字符T作为时间的标志符,说明时间表示的开始)
时间型(time)T采用GB/T7408中规定的hhmmss格式表示的值的类型
上述无法表示的其他数据类型,如图像、音频、视频等二进制流
二进制(binary)BY
文件格式
4.6表示格式说明
4.6.1表示格式中字符含义描述规则
数据元的表示格式中字符含义描述规则见表2。
表2表示格式中字符含义描述规则
字符含义
A字母字符
N数字字符
AN字母或(和)数字字符
D8采用YYYYMMDD的格式表示,其中,“YYYY”表示年份,“MM”表示月份,“DD”表示日期
T6采用hhmmss的格式表示,其中“hh”表示小时,“mm”表示分钟,“ss”表示秒
采用YYYYMMDDThhmmss的格式表示,字符T作为时间的标志符,说明日的时间表示的开始;其
DT15
余字符表示与上同
4.6.2表示格式中字符长度描述规则
数据元的表示格式中字符长度描述规则见表3。
表3表示格式中字符长度描述规则
类别表示方法
固定长度 在数据类型表示符后直接给出字符长度的数目,如N4
7
T/BIA14-2023
类别表示方法
1.可变长度不超过定义的最大字符数,在数据类型表示符后加“..”后给出数据元最大
字符数目,如AN..10
可变长度
2.可变长度在定义的最小和最大字符数之间,在数据类型表示符后给出最小字符长度
数后加“..”后再给出最大字符数,如AN4..20
有若干字符行按固定长度或可变长度的规定给出每行的字符长度数后加“X”后,再给出最大行数,
表示的长度如AN..40X3,有国家规定行文模板的记做AN..X
按固定长度或可变长度的规定给出字符长度数后,在“,”后给出小数位数,字符长度
有小数位
数包含整数位数、小数点位数和小数位数,如N6,2
4.7值域
允许值的合集。
4.8约束/条件说明
数据元的约束/条件说明见表4。
表4约束/条件说明
约束/条件约束标识符说明
必选M该数据元必须出现
条件选C该数据元在需要出现的条件下应当出现
可选O该数据元根据需要选择,可以出现,也可以不出现
5概述
药学数据集包括:药理学数据集、药物代谢动力学数据集、药物毒理学数据集、化学数据集、药学
相关的组学数据集。
从实际应用、数据规范共享角度出发,按照药学分支学科分类。药学相关的组学数据集按照药学试
验的不同环节内容对组学信息进行分类规范,涵盖项目信息、研究信息、受试物信息、试验系统信息、
试验方案信息、药学相关的基因组/转录组测序反应信息、基因组/转录组测序获得的数据信息、蛋白质
组试验信息、质谱检测分析信息、药学相关的蛋白质组数据信息,规定了数据元编码规则、数据类型、
表示格式、计量单位(可按照不同试验场景选择对应单位)、值域、约束条件,并补充说明值域代码。
6数据元
6.1项目信息
项目信息数据元见表5。
8
T/BIA14-2023
表5项目信息数据元
数据约束
数据元标识符数据元名称英文名称说明表示格式值域备注
类型条件
项目产生数据集的发布日期,
PD04.01.001项目发布日期releasedateDD8-M
为立即发布日期或指定日期
PD04.01.002项目标题title项目的标题S1AN..100-M
PD04.01.003涉及领域relevance项目涉及的研究领域S1AN..50-M
PD04.01.004项目描述description项目的描述信息S1AN..1000-M
PD04.01.005资助信息grant项目的基金资助信息S1AN..50-M
可选择的项目数
表A.1数据据类型如表
PD04.01.006资助机构agency项目的资助机构S3AN..50M
类型代码表A.1所示,可选
择多个
PD04.01.007资助项目类别program项目资助类别S1AN..50-O
PD04.01.008项目资助号grantID项目资助号S1AN..50-M
6.2研究信息
研究信息数据元见表6。
表6研究信息数据元
数据约束
数据元标识符数据元名称英文名称说明表示格式值域备注
类型条件
PD04.02.001研究发布日期releasedate研究产生数据集的发布日期DD8-M
PD01.01.001研究标题title研究的题目S1AN..100-M
PD01.01.002研究描述description研究内容的简要描述信息S1AN..1000-M
research研究中所涉及的研究领域,
PD01.01.003研究领域S1AN..50-M
field如糖尿病等
9
T/BIA14-2023
数据约束
数据元标识符数据元名称英文名称说明表示格式值域备注
类型条件
可选择的数据类
型如表A.2所示,
表A.2组学可选择多个。如
PD04.02.005组学数据类型datatype所属组学的数据种类S3AN..50数据类型数M果数据类型不在
据代码表此列表中,可以
选择“other”并
自行填写
dataaccess1.公开访问
PD04.02.006数据访问政策数据访问政策S2AN..20M
policy2.受控访问
1.通用研究
datasharing2.非盈利性
PD04.02.007数据共享限制约束数据的使用范围S2AN..20M
limitation研究3.商
业使用
6.3受试物信息
受试物信息数据元见表7。
表7受试物信息数据元
约束
数据计量单
数据元标识符数据元名称英文名称说明表示格式值域条件
类型位
PD01.02.001受试物名称testarticle通过非临床研究进行评价的物质名称S1AN..20--M
PD01.02.002批号lotnumber提供受试物所属批号S1AN..20--O
PD01.0 2.003来源source具体说明受试物来源S1AN..50--M
PD01.02.004受试物纯度purity某物质中所含某种组分的质量或者体积分数NN..6,2%>0M
PD01.02.005受试物含量content化学物质中,主成分在该物质中所占的分数NN..6,2%>0O
expiration在规定的贮藏条件下,受试物质量能够符合规
PD01.02.006有效期DD8--M
date定要求的期限
10
T/BIA14-2023
约束
数据计量单
数据元标识符数据元名称英文名称说明表示格式值域条件
类型位
药品检验机构对抽验药品质量出具的技术鉴
quality
定,具法律效力,同时也是药品监管部门认定
PD01.02.007质量检验报告inspectionBYAN..X--O
某种药品是否应定性为假劣药实施行政处罚的
report
重要依据
storage
PD01.02.008保存条件具体说明受试物的保存条件S1AN..50--M
conditions
preparation
PD01.02.009配制方法详细描述受试物溶液的配制方法S1AN..100--M
method
能溶解气体、固体、液体而成为均匀混合物的
PD01.02.010溶媒solvent一种液体。习惯上把气体和固体叫溶质,液体S1AN..100--M
叫溶剂。需要说明批号、规格和生产厂家
生产药品和调配处方时使用的赋形剂和附加
pharmaceutic剂;是除活性成分以外,在安全性方面已进行
PD01.02.011药用辅料S1AN..100--O
excipients了合理的评估,且包含在药物制剂中的物质。
需要说明批号、规格和生产厂家
6.4试验系统信息
6.4.1试验系统信息——实验动物
试验系统信息——实验动物数据元见表8。
11
T/BIA14-2023
表8试验系统信息——实验动物数据元
数据表示格计量单约束条
数据元标识符数据元名称英文名称说明值域
类型式位件
“种”以下的非自然分类单位。主要
通过人工选择或定向培育,把动物的
某些生物学特性进行改良,并能稳定
PD01.03.001品种breed遗传的一类动物。最常用的实验动物S1AN..10--M
品种为:小鼠、大鼠、地鼠、豚鼠、
兔、犬、小型猪、猫、斑马鱼和非人
灵长类中猕猴等
实验动物品系来源应明确,即
“株”。为实验动物专有分类名词,
根据不同试验目的采用一定的交配方
PD01.03.002品系strain式繁殖且祖先明确的动物群,具有独S1AN..50--M
特的生物学特性并能稳定遗传的群
体,如近交系、突变系等,可用于不
同试验目的的动物群体
普通级动
物、清洁
实验动物按微生物学等级分为普通级级动物、
PD01.03.003等级grade动物、清洁级动物、无特定病原体级S2AN..50-无特定病M
动物、无菌级动物原体级动
物、无菌
级动物
实验动物来源途径。动物来源单位符
合实验动物管理部门核发的实验动物
PD01.03.004来源sourceS1AN..50--
定制服务
推荐标准
- T/EJCCCSE 163-2024 教学训练三维交互资源快速开发标准化流程及工具 2024-12-12
- T/QGCML 4605-2024 用户满意度回访系统 2024-09-07
- T/GBAS 91-2024 桥岛隧智能运维数据 沉管隧道养护工程 2024-04-09
- T/QGCML 4606-2024 企业数字化档案综合管理平台 2024-09-07
- T/CCUA 041-2024 版本典藏网站资源长期保存 流程管理要求 2024-12-16
- T/GDNB 249-2024 岭南特色农业科学数据中心论文关联科学数据共享规范 2024-10-12
- T/ZGCSC 014-2024 基于蜂窝网络的智能家居电器安全控制要求 2024-09-29
- T/CUPTA 046-2024 NB-IoT 多传感地磁车位检测器技术规范 2024-03-15
- T/ISC 0047-2024 数据流通备份与审查技术通则 2024-06-12
- T/GBAS 93-2024 桥岛隧智能运维数据 沉管隧道评定 2024-06-07