GB/T 31219.2-2014 图书馆馆藏资源数字化加工规范 第2部分:文本资源
GB/T 31219.2-2014 Specification of library collections digitization—Part 2:Text resources
基本信息
本部分适用于以文字为主要表达形式,可存在少量图表的文本文献(不包括古籍善本、手稿等特殊文献)的数字化加工。
注: 数字化加工对象可以是一般印刷型文献,也可以是印刷型文献经过数字转换后的图像文件。
本部分适用于图书馆文本资源数字化加工,其他文献信息机构的文本资源数字化加工也可参照使用。
发布历史
-
2014年09月
研制信息
- 起草单位:
- 国家图书馆、首都图书馆、北京大学图书馆、中国科学院文献情报中心、上海图书馆上海科学技术情报研究所、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司
- 起草人:
- 李晓明、龙伟、赵四友、朱云、陈建新、王炜、张春红、刘秀文、张建勇、周静怡、徐强、黄晨、李明敬、魏丕
- 出版信息:
- 页数:10页 | 字数:1 千字 | 开本: 大16开
内容描述
ICS35.240
L70OB
中华人民共和国国彖标准
GB/T31219.2—2014
图书馆馆藏资源数字化加工规范
第2部分:文本资源
Specificationoflibrarycollectionsdigitization—
Part2:Textresources
2014-09-30发2015-01-01实施
GB/T31219.2—2014
目次
刖BI
1范围1
2规范性引用文件1
3术语和定义1
4加工级别及内容编码2
5加工准备3
6资源采集与处理3
7元数据加工4
8命名规则6
9质量管理6
参考文献7
GB/T31219.2—2014
■ir■■i
刖吕
GB/T31219«图书馆馆藏资源数字化加T规范》分为五个部分:
——第1部分:总则;
——第2部分:文本资源;
——第3部分:图像资源;
——第4部分:音频资源;
——第5部分:视频资源。
本部分为GB/T31219的第2部分.
本部分按照GB/T1.1—2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本部分由中华人民共和国文化部提出。
本部分由全国图书馆标准化技术委员会(SAC/TC389)归口。
本部分起草单位:国家图书馆、首都图书馆、北京大学图书馆、中国科学院文献情报中心、上海图书
馆上海科学技术情报研究所、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司。
本部分起草人:李晓明、龙伟、赵四友、朱云、陈建新、王炜、张春红、刘秀文、张建勇、周静怡、徐强、
黄晨、李明敬、魏丕。
T
GB/T31219.2—2014
图书馆馆藏资源数字化加工规范
第2部分:文本资源
1范围
GB/T31219的本部分规定了图书馆文本资源数字化加工遵循的技术标准。
本部分适用于以文字为主要表达形式,可存在少量图表的文本文献(不包括古籍善本、手稿等特殊
文献)的数字化加工。
注:数字化加工对象可以是一般印刷型文献,也可以是印刷型文献经过数字转换后的图像文件。
本部分适用于图书馆文本资源数字化加工,其他文献信息机构的文本资源数字化加T也可参照
使用。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB2312信息交换用汉字编码字符集基本集
GB/T4894—2009信息与文献术语
GB13000信息技术通用多八位编码字符集(UCS)
GB18030信息技术中文编码字符集
GB/T25100—2010信息与文献都柏林核心元数据元素集
ISO/IEC10646信息技术通用多八位编码字符集(UCS)[Informationtechnology—Universal
Multiple-OctetCodedCharacterSet(UCS)]
3术语和定义
下列术语和定义适用于本文件。
3.1
文献document
在文献丁作过程中作为一个单位处理的记录信息或实物对象。
[GB/T4894—2009,定义]
3.2
文本text
以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本
上取决于读者对于某种自然语言或者人工语言的知识。
[GB/T4894—2009,定义.4]
3.3
图像image
用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼进而产生
视知觉的实体。
1
GB/T31219.2—2014
3.4
光学字符识别opticalcharacterrecognition
又称OCR识别,自动识別通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑
和检索。
3.5
点/英寸dotsperinch
dpi
扫描仪(打印机)在水平方向上和垂直方向上的每英寸都能扫描(打印)的点数。
:GB/Z19736—2005,定义3.4]
4加工级别及内容编码
4.1加工级别
文本资源数字化加T级别分为长期保存级和发布服务级:
-长期保存级。用于文本资源的长期保存,在必要时用于编辑及格式转换。长期保存级的文件
格式主要有:
•XML格式,适用于标识文件的版面信息,描述文件的内容或结构。
•TXT格式,是最常见的一种文本格式,其文件体积小,存储方便,不易被病毒感染。
•PDF格式,适用于各种档次的印刷,文本文档的保护、打印、网络显示及长期保存等。
——发布服务级。用于网络浏览、下载及打印。发布服务级的文件格式主要有:
•HTML格式,一般用于文本资源的网络发。
•PDF格式,也适用于文本文件的交换、显示。
•DOC格式,是一种专属格式,一般用于文本编辑。
4.2内容编码
文本内容编码应遵循通用的国家标准或国际标准,见表1。
表1文本内容编码标准
标准编号标准名称简要说明
规定了汉字信息交换用的基本图形字符及其二进制编码表示。
信息交换用汉字编码字符
GB2312它是一个简化字汉字的编码,共收录6763个汉字,其中一级汉字
集基本集
3755个,二
定制服务
推荐标准
- DB3304/T 011-2018 农村环境卫生基础设施设置要求 2018-05-10
- DB3304/T 009-2018 党员志愿者管理规范 2018-05-10
- DB3304/T 008-2018 党员志愿服务规范 2018-05-10
- DB3304/T 005-2018 集装箱收提箱服务规范 2018-05-10
- DB3701/T 12-2020 建设项目交通影响评价技术导则 2020-11-01
- DB3304/T 051-2020 小型商业网点消防安全管理 2020-08-05
- DB3304/T 006.2-2018 港口集装箱运输交接服务规范 第二部分:场到门 2018-05-10
- DB3304/T 016-2018 公共图书馆中心馆-总分馆服务体系 建设管理规范 2018-05-10
- DB3304/T 012-2018 农村保洁服务与管理规范 2018-05-10
- DB3304/T 007-2018 车用压缩天然气加气站服务规范 2018-05-10