DB12/T 1303-2024 地方志数字化加工技术规范

DB12/T 1303-2024 Digital Processing Specification for Local Chronicles

天津市地方标准 简体中文 现行 页数:27页 | 格式:PDF

基本信息

标准号
DB12/T 1303-2024
标准类型
天津市地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2024-02-19
实施日期
2024-03-19
发布单位/组织
天津市市场监督管理委员会
归口单位
天津市地方志编修委员会办公室
适用范围
-

发布历史

研制信息

起草单位:
天津市地方志编修委员会办公室、天津市地方志馆
起草人:
莫洪胜、仇伟海、郝登奎、梁娜、巩志彬、朱晓飞、朱雅晶、郑佳、张迪、李庆福、王靓、邓滢、柳杨
出版信息:
页数:27页 | 字数:- | 开本: -

内容描述

ICS01.140.20

CCSA14

12

天津市地方标准

DB12/T1303—2024

地方志数字化加工技术规范

TechnicalspecificationfordigitalprocessingofLocalChronicles

2024-02-19发布2024-03-19实施

天津市市场监督管理委员会发布

DB12/T1303—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件由天津市地方志编修委员会办公室提出并归口。

本文件起草单位:天津市地方志编修委员会办公室、天津市地方志馆。

本文件主要起草人:莫洪胜、仇伟海、郝登奎、梁娜、巩志彬、朱晓飞、朱雅晶、郑佳、张迪、李

庆福、王靓、邓滢、柳杨。

I

DB12/T1303—2024

地方志数字化加工技术规范

1范围

本文件规定地方志纸质文献数字化加工流程、技术规范和地方志书籍出版的电子文件格式以及著录

元数据结构等内容。

本文件适用于地方志纸质文献数字化及出版电子书籍的加工处理。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T2260—2007中华人民共和国行政区划代码

GB/T22373—2008标准文献元数据

GB/T31219.2—2014图书馆馆藏资源数字化加工规范第2部分:文本资源

DA/T31—2017纸质档案数字化规范

3术语和定义

下列术语和定义适用于本文件。

3.1

地方志localchronicles

包括地方志书和地方年鉴。地方志书是全面系统地记述某一地域或某一专门领域自然、政治、经济、

文化、社会和生态建设的历史与现状的资料性文献。地方年鉴是指全面系统记述某一地域或某一专门领

域自然、政治、经济、文化、社会和生态建设年度现状的资料性文献。

3.2

地方志资源localchronicleresources

包括但不限于地方志书、地方年鉴、期刊、地方史等地方志书刊类资源。

3.3

数字化digitization

利用计算机技术将模拟信号转换为数字信号的处理过程。

[DA/T31—2017,定义3.1]

3.4

地方志数字化digitizationofpaper-basedrecords

采用扫描仪等设备对地方志资源进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的

数字图像、文本数据、图片数据、表格数据,并按照在纸质文献的内在联系,建立起目录数据、内容数

据、数字图像间的相互关联关系的处理过程。

3.5

分辨率resolution

单位长度内图像包含的点数或素数,一般用dpi表示。

3.6

准确率precision

文本文件中正确识别的字符数与总字符数之比,即准确率=(正确识别字符数/总字符数)×100%。

1

DB12/T1303—2024

3.7

光学字符识别opticalcharacterrecognition(OCR)

电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用

字符识别方法将形状翻译成计算机文字的过程。

3.8

元数据metadata

描述信息资源或数据的数据。

[GB/T22373—2008,定义3.3]

3.9

元素element

元数据的基本语义单位,描述元数据的基本实体。

3.10

简单型simpletype

不具有子元素的元素所对应的元素类型。

3.11

容器型containertype

具有子元素且本身不能被赋值的元素所对应的元素类型。

3.12

复合型complextype

本身可以被赋值且在一定条件下可以具有子元素的元素所对应的元素类型。

4地方志数字化加工流程及质量要求

4.1基本要求

4.1.1完整性

地方志数字化资源的类型、内容、元数据信息应保证完整。

4.1.2规范性

地方志数字化资源的数据格式、数据文件命名、数据存储应保证规范。

4.1.3有效性

地方志数字化资源应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开,编

码混乱、图像失真等无法使用的错误。

4.1.4准确性

地方志数字化资源的文字、图像、版式文件、资源挂接、元数据应保证准确。

4.1.5合规性

地方志数字化资源的著作权属于作者,出版社或数字化扫描公司未经作者同意不得将地方志数字资

源用于任何商业或其他营利性用途。各单位向同级地方志馆移交地方志数字资源应按照附录A,填写《地

方志数字资源移交登记表》。

4.2加工流程

包括但不限于:建立目录数据库、扫描纸质文献、OCR识别、制作书签。

4.3建立目录数据库

2

DB12/T1303—2024

目录数据库数据规则的制定应符合附录C的要求,包括数据名称、字段类型、取值范围等。地方志

数字资源命名要求应符合本文件4.7的要求。

4.4扫描纸质文献

4.4.1加工范围

包括封面、版权页、目录、正文、附录、插页、封底等从封面到封底的全部页面。

4.4.2加工格式

地方志数字资源在形成过程中可采用通用格式,在归档时要转为版式文件,版式文件格式应与国家

允许的格式一致,目前可采用双层OFD、双层PDF或矢量PDF格式。双层OFD、双层PDF文件图像所使用的

图像格式为JPG;矢量PDF文件文字使用矢量字库,图像采用高质量方式。

4.4.3加工要求

4.4.3.1页面要求

页面中图像层和文字层的文字对位要准确,页面完整,无缺页、重页,页码顺序颠倒等情况发生。

文字简繁体参照原书处理。

4.4.3.2图像要求

4.4.3.2.1图像精度不少于300dpi,如原件质量较差或字体很小,字迹密集,可适当提高分辨率。

4.4.3.2.2图像放大到200%的时候,字迹清晰,笔画连续,无断裂、缺块的现象,倾斜度不能超过0.50。

4.4.3.2.3含彩色插图的页面为彩色图像;含灰度插图的页面为灰度图像;其他页面,为黑白图像。

4.5OCR识别

使用OCR相关软件对地方志文献进行文字识别。OCR文字识别完成后需进行内容校对,采用人工检验

或计算机程序辅助检验的方法对地方志数字资源中的文本、图片、表格等进行抽样检测。文本、图片准

确率应在99%以上,表格准确率应在95%以上。

4.6制作书签

需包含与原书一致的书签。在出版物的封面、封面后的折页、第一次出现书名的地方、版权页、封

底前的折页、封底,添加书签“封面、前折页、书名页、版权页、后折页、封底”,其他出现与章节平

级的(如序,前言,后记等)内容,必须在版式文件出现的地方按原书内容添加书签。所有书签均按原

书实际顺序,书签能准确跳转到其对应的位置。

4.7命名要求

地方志数字资源以其具有的唯一标识符命名,编码由15位组成。

前2位代表地方志数字资源类型,其中“ZS”代表志书,“NJ”代表年鉴,“QK”代表地方志期刊,

“FS”代表地方史。

第3位代表地方志资源内容所属类别,编码规则按照中国图书馆分类法,其中A~X为专业性地方志

资源(包括专门年鉴和专门志书)的类别编码,Z为综合型地方志资源(包括综合年鉴和综合志书)的

类别编码。

第4~9位共6位为地方志资源所属地行政区划代码,应符合GB/T2260—2007中华人民共和国行政

区划代码的要求。

第10~13位共4位为地方志记事下限的年份。

第14~15位为卷次编号,代表地方志资源在该年份该区划的卷次,00代表只有唯一一卷,若有多卷,

则01代表第一卷、02代表第二卷,依次类推。

示例:ZSZ120104201000表示2010年天津市南开区志(1979-2010)

3

DB12/T1303—2024

4.8出版电子书籍的加工处理

4.8.1格式转换要求

由出版社的排版文件转换成版式文件时,必须纠正内码错误(原文文字错误可以除外),确保所有

文字内容能够被正确检索和拷贝,与原书版面保持一致。其中外文数字、标点、符号等均应采用半角。

4.8.2加工及书签要求

出版电子书籍的加工处理应符合本文件4.4.3的要求,书签应符合本文件4.6的要求。

4.9存储结构要求

4.9.1元数据收集

地方志数字资源应以图书或期刊为单位进行存储,其元数据应一并收集、归档。元数据可采用XLS、

XML、ET格式。

4.9.2XML格式要求

4.9.2.1XML文件的规格应遵循XML1.0版本规格要求,编码方式为UTF-8,使用字符集应符合GB18030。

4.9.2.2XML文件要求大小写正确、嵌套正确。

4.9.2.3元数据的Schema定义见附录B。

4.9.3存储结构及实例

一册(卷)地方志数字资源建立一个文件夹,文件夹以图书或期刊的标识符命名。文件夹内文件包

括双层OFD或PDF(含书签)和元数据文件,均以其标识符来命名,存储结构应符合图1。

图1存储实例

5元数据著录要求

5.1元数据的组成

4

DB12/T1303—2024

由基本数据元素组成,包括题名、责任者、标识符、日期、数字加工信息、馆藏信息等元素。

5.2元数据的分类

5.2.1元数据从概念层次上区分为为描述元数据和管理元数据。

5.2.2描述元数据由基本元素组成,包括题名、责任者等信息。

5.2.3管理元数据由实体书的来源信息、馆藏信息和数字化加工元素组成,包括数字化加工机构、数

字化加工交付时间等信息。

5.3元数据的描述方法

5.3.1中文名称

由一个对象称谓的中文词或短语构成。

5.3.2英文标签

由一个对象称谓的英文词或短语构成。

5.3.3定义说明

数据元素范围的定义或说明,描述信息对象的一段文字。

5.3.4目的

描述数据元素的必要性和作用。

5.3.5必备性

数据元素的选择性属性。

5.3.6重复性

数据元素的可重复性属性。

5.3.7元素类型

数据元素所属的类型,分为简单型、容器型、复合型。

5.3.8数据类型

由字符、数字、数值和日期等类型构成。

5.3.9取值范围

数据元素所涉及的取值范围。

5.3.10注释

对数据元素的进一步说明。

5.4元数据索引表

元数据索引见表1。

表1元数据索引表

层次描述编号元素编号元素

描述元数据M1题名

5

DB12/T1303—2024

M3主管单位

M2责任者M4主办单位

M5其他责任者

M6地域

M8摘要

M7描述信息M9编辑说明/凡例

M10卷次篇目名称

M11日期M12纂修日期

M13出版日期

M14标识符M15资源类型

M16图书分类号

M17行政区划代码

M18记事下限

M19卷次编号

M20版权

M21语种

M22关联

M23出版信息M24出版编号

M25出版单位

M26印刷单位

M27开本

M28印数

M29字数

M30页数

M31定价

M33数字加工来源格式

M34数字化加工机构

M32数字加工信息

M35数字化加工交付时间

M36数字化加工执行标准

M38来源方式

M37来源信息

M39提供方名称

管理元数据M41收藏单位名称

M42典藏号

M40馆藏信息M43排架区分号

M44入藏日期

M45入藏卷期

M47完残

M46保存状态

M48完残程度

5.5元数据具体描述

见附录C。

6

DB12/T1303—2024

A

A

附录A

(规范性)

地方志数字资源移交登记表

各单位向同级地方志馆移交地方志数字资源应填写《地方志数字资源移交登记表》,应符合表A.1。

表A.1地方志数字资源移交登记表

移交单位名称

1.

2.

3.

移交地方志

4.

数字资源明细

5.

6.

7.

拥有版权提供版权所有者授权声明

数字版权情况

其他情况说明

移交介质光盘U盘移动硬盘其他:_______

(签字)(签字)

移交人接收人

年月日年月日

(盖章)(盖章)

移交单位接收单位

年月日年月日

备注:移交单位应提供版权所有者的授权声明,确保接收单位享受地方志数字资源的复制、信息网络传播、

汇编等权利。若发生版权争议,责任由移交单位承担。

7

DB12/T1303—2024

附录B

(规范性)

元数据的Schema定义

<xs:elementname="description">

<xs:complexType>

<xs:sequence>

<xs:elementname="title"type="xs:string"/>

<xs:elementname="creator"type="xs:string"/>

<xs:elementname="dominantAgency"type="xs:string"/>

<xs:elementname="sponsor"type="xs:string"/>

<xs:elementname="otherCreator"type="xs:string"minOccurs="0"/>

<xs:elementname="region"type="xs:string"/>

<xs:elementname="descriptionInformation">

<xs:complexType>

<xs:sequence>

<xs:elementname="abstract"type="xs:string"/>

<xs:elementname="usual"type="xs:string"/>

<xs:elementname="tableOfContents"type="xs:string"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="date">

<xs:complexType>

<xs:sequence>

<xs:elementname="created"type="xs:dateTime"/>

<xs:elementname="issued"type="xs:dateTime"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="identifier">

<xs:complexType>

<xs:sequence>

<xs:elementname="resourceType"type="xs:string"/>

<xs:elementname="booksNumber"type="xs:string"/>

<xs:elementname="areaNumber"type="xs:string"/>

<xs:elementname="lowerLimit"type="xs:string"/>

<xs:elementname="volNumber"type="xs:string"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="copyright"type="xs:string"/>

<xs:elementname="language"type="xs:string"/>

<xs:elementname="relation"type="xs:string"minOccurs="0"maxOccurs="unbounded"/>

<xs:elementname="publishingInformation">

<xs:complexType>

<xs:sequence>

<xs:elementname="publicationNumber"type="xs:string"/>

<xs:elementname="publisher"type="xs:string"minOccurs="0"/>

<xs:elementname="PrintingUnit"type="xs:string"minOccurs="0"/>

<xs:elementname="bookSize"type="xs:string"minOccurs="0"/>

<xs:elementname="printNumber"type="xs:string"minOccurs="0"/>

<xs:elementname="wordNumber"type="xs:string"minOccurs="0"/>

<xs:elementname="pageCount"type="xs:string"minOccurs="0"/>

<xs:elementname="price"type="xs:string"minOccurs="0"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="digitialInfo"minOccurs="0">

<xs:complexType>

<xs:sequence>

<xs:elementname="digitalSource"type="xs:string"minOccurs="0"/>

8

DB12/T1303—2024

<xs:elementname="digitialUnit"type="xs:string"minOccurs="0"/>

<xs:elementname="leadDate"type="xs:string"minOccurs="0"/>

<xs:elementname="standardOfExecution"type="xs:string"minOccurs="0"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="sourceInfo"minOccurs="0">

<xs:complexType>

<xs:sequence>

<xs:elementname="sourceType"type="xs:string"minOccurs="0"/>

<xs:elementname="sourceFrom"type="xs:string"minOccurs="0"/>

</xs:sequence>

</xs:complexType>

</xs:element>

<xs:elementname="collectInfo"minOccurs="0">

定制服务

    相似标准推荐

    更多>