DB32/T 4818.2-2024 党史资料数据规范 第2部分:数据采集

DB32/T 4818.2-2024 Party History Data Standardization Part 2: Data Collection

江苏省地方标准 简体中文 现行 页数:30页 | 格式:PDF

基本信息

标准号
DB32/T 4818.2-2024
标准类型
江苏省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2024-07-08
实施日期
2024-08-08
发布单位/组织
江苏省市场监督管理局
归口单位
-
适用范围
-

发布历史

研制信息

起草单位:
起草人:
出版信息:
页数:30页 | 字数:- | 开本: -

内容描述

ICS35.040

CCSA14

!7,



DB32/T4818.2—2024

党史资料数据规范

第2部分:数据采集

DataspecificationforCommunistPartyofChinahistory

materials—Part2:Dataacquisition

2024-07-08发布2024-08-08实施

江苏省市场监督管理局发布

中国标准出版社出版

DB32/T4818.2—2024

目次

前言……………………………

引言……………………………

1范围…………………………1

2规范性引用文件……………1

3术语和定义…………………1

4缩略语………………………2

5总体要求……………………2

6组织与管理…………………3

7党史资料出库………………4

8数字化前处理………………5

9目录数据库建立……………6

10资料扫描与采集……………6

11资料处理…………………10

12数据挂接…………………14

13数字化成果验收与移交…………………14

14党史资料归还入库………………………16

附录A(资料性)党史资料数字化安全管理制度…………18

附录B(资料性)党史资料数字化加工保密管理制度……………………19

附录C(资料性)党史资料出库申请单……………………20

附录D(资料性)党史资料数字化加工登记单……………21

附录E(资料性)报刊数据标引生成文件XML样例……………………22

附录F(资料性)党史资料数字化备份管理登记表………26

DB32/T4818.2—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件是DB32/T4818《党史资料数据规范》的第2部分。DB32/T4818已经发布了以下部分:

——第1部分:数据编目;

——第2部分:数据采集;

——第3部分:数据标引。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由中国共产党江苏省委员会党史工作办公室提出并归口。

本文件起草单位:中国共产党江苏省委员会党史工作办公室、中电鸿信信息科技有限公司、江苏省质

量和标准化研究院。

本文件主要起草人:缪毅、耿学忠、孙正新、周小川、吴玉健、陈勇刚、王亚东、尹秋萍、吴练、张燕琴、

阮舒曼、许萌君、刘珏、孔肖菡。

DB32/T4818.2—2024

引言

为贯彻落实党史学习教育领导小组办公室、国家档案局印发的《关于做好党史学习教育文件材料收

集归档工作的通知》,提升江苏省党史资料信息化管理水平,稳步推进传统介质的中共党史文献资料转化

为数字化文献,并通过网络信息实现资源共享,推动江苏省党史资料数字化建设高质量发展,特制定本

文件。

在党史资料数据建设工作中,数据编目、数据采集、数据标引均为重要组成部分且内容相互协调补充,

但由于标准文件篇幅限制且数据编目、数据采集、数据标引编制重点与要求均不相同,故DB32/T4818分

为以下三个部分。

——第1部分:数据编目。旨在明确党史资料数据编目过程中的相关要求,包括编目项目的确定、编

目主体分类、编目流程等,提高数据编目的科学性和准确性。

——第2部分:数据采集。旨在明确党史资料数据采集过程中的相关要求,包含了从党史资料出库

到党史资料归还入库的一系列采集流程和内容,提高数据采集的规范性和可操作性。

——第3部分:数据标引。旨在明确党史资料数据标引过程中的相关要求,包括不同类型、不同主题

党史资料数据的标引要求,提高数据标引的规范性和准确性。

DB32/T4818.2—2024

党史资料数据规范

第2部分:数据采集

1范围

本文件确定了江苏省党史部门党史资料数据采集的总体要求、组织与管理、党史资料出库、数字化前

处理、目录数据库建立、资料扫描与采集、资料处理、数据挂接、数字化成果验收与移交、党史资料归还入

库的相关内容。

本文件适用于江苏省党史部门对各类党史资料的采集与管理。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文

件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T20530文献档案资料数字化工作导则

GB/T23286.1—2009文献管理长期保存的电子文档文件格式第1部分:PDF1.4(PDF/A⁃1)

的使用

DA/T31—2017纸质档案数字化规范

DB32/T4818.1—2024党史资料数据规范第1部分:数据编目

ISO/TR13028:2010信息和文献记录数字化实施指南(Informationanddocumentation—Imple⁃

mentationguidelinesfordigitizationofrecords)

3术语和定义

GB/T20530、DA/T31—2017、GB/T23286.1—2009界定的以及下列术语和定义适用于本文件。

3.1

党史资料数字化digitizationofCommunistPartyofChinahistorymaterials

对党史资料进行数字化加工,使其转化为存储在光盘、硬盘等载体上的数字资源,并按照党史资料的

内在联系,建立起目录数据与数字资源关联关系的处理过程。

3.2

失真度distortiondegree

对资料进行数字化转换后,数字图像与原件在色彩、几何等方面的偏离程度。

3.3

国际标准书号internationalstandardbooknumber

国际上通用的出版物标识编码的标识符。

注:采用ISBN编码系统的出版物有:图书、小册子、缩微出版物、盲文印刷品等。

3.4

便携式文档格式portabledocumentformat

一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。

1

DB32/T4818.2—2024

3.5

联合图像专家组jointphotographicexpertsgroup

一种常用的图像有损压缩格式,可设置压缩率,压缩率越高,文件越小,图像品质越低。

3.6

Matroska多媒体容器Matroskamultimediacontainer

能够在一个文件中容纳无限数量的视频、音频、图片或字幕轨道的一种开放标准的自由的容器和文

件格式,一种多媒体合并转化格式。

注:Matroska的文件扩展名,对于携带了音频、字幕的视频文件是.mkv,对于单一的纯音频文件是.mka。

4缩略语

下列缩略语适用于本文件。

AVI:音频视频交错格式(AudioVideoInterleaved)

BOM:字节顺序标记(ByteOrderMark)

COM:串行通信端口(Commercial)

DPI:每英寸点数(DotsPerInch)

HTTPS:超文本传输安全协议(HypertextTransferProtocolSecure)

ISBN:国际标准书号(InternationalStandardBookNumber)

JPEG/JPG:联合图像专家组(JointPhotographicExpertsGroup)

MXF:素材交换格式(MaterialeXchangeFormat)

NTSC:美国国家电视标准委员会(NationalTelevisionStandardsCommittee)

OFD:打开固定布局文档(OpenFixed⁃layoutDocument)

PAL:电视广播制式(PhaseAlterationLine)

PCM:脉冲编码调制(Pulse⁃CodeModulation)

PDF:便携式文档格式(PortableDocumentFormat)

SECAM:按顺序传送彩色与存储(SequentielCouleurAMemoire)

SRT:文本格式字幕(SubRipText)

TIFF:标签图像文件格式(TagImageFileFormat)

XML:可扩展标记语言(EXtensibleMarkupLanguage)

5总体要求

5.1基本要求

5.1.1利用数据库、数据压缩、高速扫描等技术,将纸质党史资料原件、未经数字化技术处理的声像党史

资料,以及其他类型党史资料经过数字化处理后,以机读形式存储,实现信息资源共享。

5.1.2各相关单位应根据党史资料的珍贵程度、开放程度、利用率、亟待抢救程度、数字化资金情况等因

素统筹规划、科学开展党史资料数字化。党史资料数字化的开展应符合GB/T20530的相关要求。

5.1.3应采取有效的管理和技术手段,确保党史资料数字化成果质量。党史资料数字化应遵循党史资料

管理的客观规律,真实反映党史内容,最大程度地展现党史原貌。

5.1.4文件以PDF/A形式保存,文件的内容应以标记形式嵌入党史资料,保留文字的逻辑结构,以便搜

索引擎进行全文检索。

2

DB32/T4818.2—2024

5.2基本环节

5.2.1党史资料数字化的基本环节主要包括:

a)数字化前处理;

b)目录数据库建立;

c)资料扫描与信息采集;

d)资料处理;

e)数据挂接;

f)数字化成果验收与移交等。

5.2.2党史资料数字化过程中,各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化完

成的同时建立完整、规范的记录。应保存数字化项目信息、技术环境、数字化各类技术参数等方面的元数

据,元数据元素的确定应符合ISO/TR13028:2010的相关要求。

5.3安全管理

加强党史资料数字化各环节的安全管理,建立党史资料数字化安全管理制度(见附录A),党史资料

实体和党史资料信息的安全应符合安全管理制度要求。

5.4保密要求

加工涉密党史资料时,应按照党史资料数字化加工保密管理制度(见附录B)开展工作。

6组织与管理

6.1机构及人员

6.1.1应建立党史资料数字化组织,对数字化进行统筹规划、组织实施、协调管理、安全保障、技术保障、

监督检查、成果验收等,确保数字化顺利开展。

6.1.2应配备具有相应能力的工作人员,包括:

a)熟悉党史业务并具有较高的调查研究水平和良好的组织领导能力的管理人员;

b)熟悉相关标准规范并能为党史资料数字化各环节提供技术支持的技术人员;

c)掌握一定数字化基础知识并熟悉本职工作的操作人员等。

6.1.3应通过科学规范的管理制度,对工作人员进行规范化管理。应加强对外聘工作人员的审核,强化

数字化的安全性。

6.2基础设施

6.2.1应配备专用加工场地,并进行合理布局,形成党史资料存放、数字化前处理、党史资料编目、党史资

料扫描、图像处理、质量检查等工作区域。

6.2.2加工场地的选择及温湿度等环境的控制应利于党史资料实体的保护。场地内应配备可覆盖全部

场地的防火、防水、防有害生物、防盗报警、视频监控等安全管理的设施设备。

6.2.3应合理规划、配备和管理党史资料数字化设施设备,确保设施设备安全、先进,满足数字化需要。

6.2.4加工涉密音视频党史和文献资料时,应由党史部门提供场地和电脑、存储设备等具备记忆功能的

存储与处理设备,音视频读取和转换设备由制作单位自备。

6.3工作方案

6.3.1应在充分调研的基础上,制定科学合理的工作方案,确保党史资料数字化达到预期目标。

3

DB32/T4818.2—2024

6.3.2党史资料数字化方案应包括数字化对象、工作目标、工作内容、成本核算、数字化技术方法和主要

技术指标、验收依据、人员安排、责任分工、进度安排、安全管理措施等内容。数字化对象的确定应综合考

虑党史资料的珍贵程度、开放程度、利用率、亟待抢救程度、数字化资金情况等因素。

6.3.3宜对党史资料数字化方案进行专家论证,确保其科学、规范、合理。

6.3.4党史资料数字化方案应经审批后严格执行。工作方案审批结果应与数字化过程中形成的其他文

件一并保存。

6.4管理制度

6.4.1应制定科学化、规范化的管理制度,并在工作过程中严格执行,保障党史资料安全和党史资料数字

化成果质量。

6.4.2党史资料数字化管理制度应包含岗位管理、人员管理、场地管理、设备管理、数据管理、党史资料实

体管理等方面的制度:

a)岗位管理制度对各数字化岗位的工作目标和职责进行规范,形成明确的岗位业务流程规范、考

核标准、奖惩办法等;

b)人员管理制度对人员的安全责任、日常行为、外聘人员信息审核及管理、非工作人员来访登记等

进行规范;

c)场地管理制度对人员出入和工作场地内基础设施、环境、网络、监控设施、现场物品、证件等的管

理工作进行规范;

d)设备管理制度对数字化各环节涉及的全部设备的管理工作进行规范;

e)数据管理制度对数字化各环节所产生的数据的管理工作进行规范;

f)党史资料实体管理制度对党史资料实体在数字化过程中的交接、管理、存放等工作进行规范。

6.5工作流程控制

6.5.1应制定党史资料数字化流程和各环节操作规范,对党史资料数字化全过程进行有效的控制,确保

数字化成果质量。

6.5.2应加强对党史资料数字化的全流程安全管理。

6.5.3应建立完善的问题反馈机制,对党史资料数字化过程中后端环节发现前端环节中产生的问题进行

及时反馈和修正。

6.6工作资料管理

6.6.1应根据情况制定符合实际要求的党史资料数字化工作资料,加强对数字化的管理。工作资料主要

包括:

a)党史资料数字化方案;

b)党史资料数字化审批书;

c)党史资料数字化流程单;

d)数据验收单;

e)项目验收报告;

f)党史资料数字化成果移交清单等。

6.6.2应加强对党史资料数字化工作资料的管理,明确数字化过程中形成的工作资料的整理、归档、移交

等管理要求。

7党史资料出库

7.1党史资料保管部门应按照党史资料数字化方案确定的数字化对象开展党史资料调取、清点、登记等

4

DB32/T4818.2—2024

前期准备工作,并提交《党史资料出库申请单》(见附录C),经相关责任人批准后,按照各地党史资料库房

管理要求为数字化对象办理出库手续,并与数字化部门共同清点无误后,对党史资料进行交接出库。

7.2党史资料数字化过程中,应设置距离数字化加工场所较近的保管库以临时存放党史资料,对党史资

料的领取与归还进行严格管理,做好检查、清点、登记等工作,确保党史资料的安全。

7.3党史资料按介质可分为以下几类。

a)纸质资料,根据纸质资料的出版情况进行分类,一般分为以下三类:

1)公开出版物,经国家审定的出版单位出版、能向社会公开发行的出版物,主要包括公开出版

的拥有ISBN的图书、各公开发表的报纸杂志等;

2)内部资料性出版物,在本行业、本系统、本单位内部,用于指导工作、交流信息的非卖性单本

成册或连续性折页、散页印刷品,一般拥有指定的内部标准号;

3)其他出版物,主要包括手写书稿、剪报等。

b)图像资料,主要包括图片、照片、幻灯片、胶卷等。

c)视频资料,主要包括录像带、胶片等。

d)音频资料,主要包括录音卡带、胶带(开盘带)等。

e)实物资料,主要包括征集到的各种实物,拍照后以数字化照片形式导入数据库。

8数字化前处理

8.1确定扫描页

宜将确定为数字化对象的党史资料全部扫描。如有不需要扫描的页面应加以标注。

8.2编制页号

8.2.1应对没有页号或页号不正确的党史资料重新编制页号。

8.2.2重新编制页号时,应在统一位置书写页号,且不压盖党史资料内容。

8.2.3书写页号所使用的笔、墨等不应破坏党史资料原件或对党史资料长期保存造成影响。

8.2.4应将破损页面、缺页等特殊情况进行登记。

8.3目录数据准备

8.3.1按照目录数据库建立时制定的数据规则,对照党史资料原件内容,规范党史资料中的目录内容。

8.3.2应对需要在目录数据库中进行标记的情况进行标记。

8.4拆除装订

8.4.1应以对党史资料的保护为原则确定是否拆除装订。如需拆除装订物,应注意保护党史资料不受损

害,并对排列顺序不准确的党史资料进行重排。

8.4.2特殊装订且拆除装订后需恢复的党史资料,在拆除装订物时应采用拍照等方式记录党史资料原

貌,以便于恢复。

8.5技术修复

8.5.1纸质资料

破损严重、无法直接进行扫描的资料,应先进行技术修复,对折皱、夹页、连页等影响扫描质量的原文

件进行相应处理(如压平、单页分离),再进行扫描。

5

DB32/T4818.2—2024

8.5.2图像资料

对残缺、褪色、偏色的进行补充和校色。如需提供原片,应补充相关资料。

8.5.3音视频资料

对音视频党史和文献资料载体进行外观检查,如出现以下情况,应对音视频党史和文献资料载

体进行适度清洁或修复等技术处理:

a)资料载体物理形态出现卷曲、变形、划伤、脆裂、粘连、磁粉脱落等情况;

b)资料载体出现可见性微斑、变色、生霉等情况;

c)资料载体出现断磁、受潮、消磁、灰尘附着等情况;

d)影响音视频资料数字化的其他情况。

检查资料载体是否存在已经损毁无法数字化的情况,对于认定为不能数字化的资料载体,送到

省级党史部门做进一步检查认定。如遇恢复率较低的情况,应与提供单位协商解决。

8.5.4实物资料

对实物资料进行拍照,标注实物的尺寸大小质地,体现实物资料的形状和内容。

8.6资料登记

按照DB32/T4818.1—2024第6章、第7章的要求,制作并填写《党史资料数字化加工登记单》(见

附录D),详细记录资料相关信息。

8.7恢复装订

扫描工作完成后,拆除装订物的资料应重新进行装订。恢复装订时,应注意保持资料的排列顺序不

变,案卷左边和底边整齐,做到完整、准确、无遗漏。

9目录数据库建立

9.1应制定包括数据字段长度、字段类型、字段内容要求等的目录数据库数据规则,其制定应符合

DB32/T4818.1—2024对党史资料编目的要求。

9.2应选择可转换为通用数据格式的数据库,数据库结构设计时应注意保持党史资料的内在联系。

9.3将党史资料数字化前工作中对党史资料目录进行修改、补充的结果录入数据库,形成准确、完整的

目录数据。

9.4可采用计算机自动校对与人工校对相结合的方式,对目录数据的质量进行检查,检查内容包括编目

项目的完整性、编目内容的规范性和准确性等。发现不合格的数据应及时进行修改。

10资料扫描与采集

10.1基本要求

10.1.1党史资料扫描应根据党史资料原件实际情况、数字化目的、数字化规模、计算机网络和存储条件

等选择相应的扫描设备,进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、

完整、不失真,图像效果最接近党史资料原貌。

10.1.2分幅扫描时,相邻图像之间应留有足够的重叠,并采用标板等方式明确说明分幅方法;同页有两

6

DB32/T4818.2—2024

个以上文件时,应分别扫描。若后期采用软件自动拼接的方式,重叠尺寸应不小于单幅图像对应原件尺

寸的1/3。

10.1.3利用专业的读取设备采集音视频信息,并采用正版软件进行数字化,可进行降噪、画面平滑等技

术处理。

10.2扫描设备

10.2.1宜选择对党史资料实体破坏性小的扫描设备进行数字化,保护党史资料实体。

10.2.2应采用平板扫描仪、专业不拆卷非接触光源扫描仪及高分辨率的拍摄机进行扫描,不应采用滚筒

式扫描仪。超出所使用扫描仪扫描尺寸的党史资料可采用更大幅面扫描仪进行扫描,也可采用小幅面扫

描仪分幅扫描后进行图像拼接的方式处理。

10.2.3应遵循相关设备的使用规律,并进行定期维护、保养。

10.3扫描色彩模式

10.3.1宜全部采用彩色模式进行扫描,最大限度保留党史资料原件信息。

10.3.2页面中有红头、印章或插有照片、彩色插图、多色彩文字等的党史资料,应采用彩色模式进行

扫描。

10.3.3页面为黑白两色,并且字迹清晰、不带插图的党史资料,可采用黑白二值模式进行扫描。

10.3.4页面为黑白两色,但字迹清晰度差或带有插图的党史资料,可采用灰度模式进行扫描。

10.4扫描分辨率

10.4.1应综合考虑扫描后图像的清晰度、完整度和数字图像后期利用方式等因素进行扫描分辨率的

选择。

10.4.2扫描分辨率不应小于300dpi。如文字偏小、密集、清晰度较差时,扫描分辨率不宜小于600dpi。

10.4.3如有COM输出、仿真复制、印刷出版等其他用途,可根据需要调整扫描分辨率:

a)进行COM输出的党史资料,扫描分辨率不应小于300dpi;

b)进行高精度仿真复制的党史资料,扫描分辨率不应小于600dpi;

c)进行印刷出版的党史资料,可结合党史资料幅面、印刷出版幅面、印刷精度要求等选择合适的分

辨率。

10.5存储格式

10.5.1党史资料数字图像长期保存格式为JPG格式,保存任一方向上的尺寸误差不应超过3%,水平倾

斜角度不应超过1°。图像压缩率的选择可根据实际应用的需求而定。

10.5.2党史资料数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,

将图像转换为OFD、PDF等其他格式。若转化则所有JPG图片应合并转化成PDF文件。

10.5.3同一批党史资料应采用相同的存储格式。

10.6扫描图像命名

10.6.1应在资料编号为主文件名的基础上对数字图像命名。

10.6.2应将数字图像存储为单页文件,并按主文件名与图像流水号的组合对图像命名。例如:命名

为×××××××××××.jpg。

10.6.3数字图像确需存储为多页文件时,可采用该党史资料的资料编号+4位序号对图像命名。

示例1:97875118960870001.jpg、97875118960870002.jpg、97875118960870003.jpg

示例2:320000_01_02_01_03_00000010001.jpg、320000_01_02_01_03_00000010002.jpg

7

DB32/T4818.2—2024

10.7纸质资料扫描

10.7.1常规纸质

定制服务