GB/T 31219.2-2014 图书馆馆藏资源数字化加工规范 第2部分:文本资源

GB/T 31219.2-2014 Specification of library collections digitization—Part 2:Text resources

国家标准 中文简体 现行 页数:10页 | 格式:PDF

基本信息

标准号
GB/T 31219.2-2014
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2014-09-30
实施日期
2015-01-01
发布单位/组织
中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会
归口单位
全国图书馆标准化技术委员会(SAC/TC 389)
适用范围
GB/T 31219的本部分规定了图书馆文本资源数字化加工遵循的技术标准。
本部分适用于以文字为主要表达形式,可存在少量图表的文本文献(不包括古籍善本、手稿等特殊文献)的数字化加工。
注: 数字化加工对象可以是一般印刷型文献,也可以是印刷型文献经过数字转换后的图像文件。
本部分适用于图书馆文本资源数字化加工,其他文献信息机构的文本资源数字化加工也可参照使用。

发布历史

研制信息

起草单位:
国家图书馆、首都图书馆、北京大学图书馆、中国科学院文献情报中心、上海图书馆上海科学技术情报研究所、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司
起草人:
李晓明、龙伟、赵四友、朱云、陈建新、王炜、张春红、刘秀文、张建勇、周静怡、徐强、黄晨、李明敬、魏丕
出版信息:
页数:10页 | 字数:1 千字 | 开本: 大16开

内容描述

ICS35.240

L70OB

中华人民共和国国彖标准

GB/T31219.2—2014

图书馆馆藏资源数字化加工规范

第2部分:文本资源

Specificationoflibrarycollectionsdigitization—

Part2:Textresources

2014-09-30发2015-01-01实施

GB/T31219.2—2014

目次

刖BI

1范围1

2规范性引用文件1

3术语和定义1

4加工级别及内容编码2

5加工准备3

6资源采集与处理3

7元数据加工4

8命名规则6

9质量管理6

参考文献7

GB/T31219.2—2014

■ir■■i

刖吕

GB/T31219«图书馆馆藏资源数字化加T规范》分为五个部分:

——第1部分:总则;

——第2部分:文本资源;

——第3部分:图像资源;

——第4部分:音频资源;

——第5部分:视频资源。

本部分为GB/T31219的第2部分.

本部分按照GB/T1.1—2009给出的规则起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本部分由中华人民共和国文化部提出。

本部分由全国图书馆标准化技术委员会(SAC/TC389)归口。

本部分起草单位:国家图书馆、首都图书馆、北京大学图书馆、中国科学院文献情报中心、上海图书

馆上海科学技术情报研究所、浙江大学图书馆、汉王科技股份有限公司、北京方正阿帕比技术有限公司。

本部分起草人:李晓明、龙伟、赵四友、朱云、陈建新、王炜、张春红、刘秀文、张建勇、周静怡、徐强、

黄晨、李明敬、魏丕。

T

GB/T31219.2—2014

图书馆馆藏资源数字化加工规范

第2部分:文本资源

1范围

GB/T31219的本部分规定了图书馆文本资源数字化加工遵循的技术标准。

本部分适用于以文字为主要表达形式,可存在少量图表的文本文献(不包括古籍善本、手稿等特殊

文献)的数字化加工。

注:数字化加工对象可以是一般印刷型文献,也可以是印刷型文献经过数字转换后的图像文件。

本部分适用于图书馆文本资源数字化加工,其他文献信息机构的文本资源数字化加T也可参照

使用。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB2312信息交换用汉字编码字符集基本集

GB/T4894—2009信息与文献术语

GB13000信息技术通用多八位编码字符集(UCS)

GB18030信息技术中文编码字符集

GB/T25100—2010信息与文献都柏林核心元数据元素集

ISO/IEC10646信息技术通用多八位编码字符集(UCS)[Informationtechnology—Universal

Multiple-OctetCodedCharacterSet(UCS)]

3术语和定义

下列术语和定义适用于本文件。

3.1

文献document

在文献丁作过程中作为一个单位处理的记录信息或实物对象。

[GB/T4894—2009,定义]

3.2

文本text

以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本

上取决于读者对于某种自然语言或者人工语言的知识。

[GB/T4894—2009,定义.4]

3.3

图像image

用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼进而产生

视知觉的实体。

1

GB/T31219.2—2014

3.4

光学字符识别opticalcharacterrecognition

又称OCR识别,自动识別通过扫描仪、数码相机、摄像机等得到的图像中的字符,便于存储、编辑

和检索。

3.5

点/英寸dotsperinch

dpi

扫描仪(打印机)在水平方向上和垂直方向上的每英寸都能扫描(打印)的点数。

:GB/Z19736—2005,定义3.4]

4加工级别及内容编码

4.1加工级别

文本资源数字化加T级别分为长期保存级和发布服务级:

-长期保存级。用于文本资源的长期保存,在必要时用于编辑及格式转换。长期保存级的文件

格式主要有:

•XML格式,适用于标识文件的版面信息,描述文件的内容或结构。

•TXT格式,是最常见的一种文本格式,其文件体积小,存储方便,不易被病毒感染。

•PDF格式,适用于各种档次的印刷,文本文档的保护、打印、网络显示及长期保存等。

——发布服务级。用于网络浏览、下载及打印。发布服务级的文件格式主要有:

•HTML格式,一般用于文本资源的网络发。

•PDF格式,也适用于文本文件的交换、显示。

•DOC格式,是一种专属格式,一般用于文本编辑。

4.2内容编码

文本内容编码应遵循通用的国家标准或国际标准,见表1。

表1文本内容编码标准

标准编号标准名称简要说明

规定了汉字信息交换用的基本图形字符及其二进制编码表示。

信息交换用汉字编码字符

GB2312它是一个简化字汉字的编码,共收录6763个汉字,其中一级汉字

集基本集

3755个,二

定制服务

    推荐标准