GB/T 17532-2005 术语工作 计算机应用 词汇

GB/T 17532-2005 Terminology work—Computer applications—Vocabulary

国家标准 中文简体 现行 页数:26页 | 格式:PDF

基本信息

标准号
GB/T 17532-2005
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2005-07-15
实施日期
2005-12-01
发布单位/组织
中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会
归口单位
全国术语标准化技术委员会
适用范围
-

发布历史

研制信息

起草单位:
中国标准化研究院
起草人:
陈玉忠、于欣丽、程永红、宋敏、肖玉敬、卢丽丽、谢志利
出版信息:
页数:26页 | 字数:46 千字 | 开本: 大16开

内容描述

ICS01.040.01

A22药珍

中华人民共和国国家标准

GB/T17532-2005

代替GB/T17532-1998

术语工作计算机应用词汇

Terminologywork-Computerapplications-Vocabulary

(ISO1087-2:2000Terminologywork-

Vocabulary-Part2:Computerapplications,MOD)

2005-07-15发布2005-12-01实施

中华人民共和国国家质量监督检验检疫总局发布

中国国家标准化管理委员会

GB/T17532-2005

目次

前言,···············4·····,······························,,··,······················,·········,···················一·I

1范围···············································································································……1

2规范性引用文件················,·········,,··············……,······一·,,,·……,.1

3一般概念·1

4数据组织··············,·····················,····,················.··,···············.·..········.·……4

5术语数据的筛选···,,···,······,,,,·,···,········,,,,··,·,·····一,....·O.…,...……5

6字符···········,·······,·············································,···········································……6

7数据存储·····································,··············……,,··‘,·····……,,.········……8

8信息检索···············,,,·····················,···············……,·····················.·.·········.··。··…10

9数据管理···,··························································································.·...····……n

10数据验证,,·,······,·············,·····················,·,···············。·.·.··,····,············.···……12

11操作·····················································,·····················,······························……13

12相关的应用领域······································,·······························.·..……,.,……14

中文素引·‘···,,···········‘·····,,······,·············11······,4··,···,·············11···,·,·……16

英文索引·········································,·····························································……19

GB/T17532-2005

前言

本标准修改采用ISO1087-2;2000((术语工作词汇第2部分:计算机应用》。本标准根据我国的

实际情况和汉语、汉字的特点,在修改采用ISO1087-2;2000时,主要做了以下改动:

1.根据我国术语工作标准的命名习惯,将标准名称改为《术语工作计算机应用词汇》。

2.把某些术语注中的内容,直接引人到定义中,把定义中的内容改为注。

3.增加了部分中文例。

4.从GB/T12200.2-1994汉《语信息处理词汇02部分:汉语和汉字》中引人了8条有关汉字字

符的术语。

5.删去了参考文献目录,将其中的内容放到规范性引用文件中;增加了中文索引。

本标准是对GB/T17532-1998((术语工作计算机应用词汇》进行了修订。

本标准的条目格式按GB/T20001.1-2001《标准编写规则第1部分:术语》的规定。

条目的内容顺序如下:

—条目编号;

—优先术语(黑体);

—缩写形式(黑体);

—许用术语;

—拒用术语,括号中注明“(拒用)”;

—专业领域用尖括号(>;

—定义;引用的术语用黑体标出,并在后面用括号注明条目编号;

—例;

—注。

本标准由中国标准化研究院提出。

本标准由全国术语标准化技术委员会归口。

本标准由中国标准化研究院起草。

本标准主要起草人:陈玉忠、于欣丽、程永红、宋敏、肖玉敬、卢丽丽、谢志利等。

本标准所代替标准的历次发布情况为:GB/T17532-1998.

GB/T17532-2005

术语工作计算机应用词汇

范围

本标准规定了在术语工作中涉及计算机应用的常用术语。

本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及术语数据处理的工作中也可

参考使用。

2规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有

的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究

是否可以使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。

GB/T5271.8-1993数据处理词汇08部分:控制、完整性和安全性(eqvISO2382-8:1986)

GB/T12200.2-1994汉语信息处理词汇02部分:汉语和汉字

GB/T12991-1991信息处理系统数据库语言SQL(idtISO/IEC9075:1989)

GB/T15237.1-2000术语工作词汇第1部分:理论与应用(eqvISO1087-1:2000)

ISO/IEC2382-1:1993信息技术词汇第1部分:基本术语

ISO/IEC2382-4:1999信息技术词汇第4部分:数据的组织

ISO2382-611987信息处理系统词汇第6部分:数据的准备和处理

ISO/IEC2382-9:1995信息技术词汇第9部分:数据通信

ISO/IEC2382-23:1994信息技术词汇第23部分:文本处理

一般概念

3.1

信息information

(信息处理》关于客体(如事实、概念、事件、思想、过程等)的知识,它在一定的上下文中具有特定的

意义。

注1:本条引自ISO/IEC2382-1:1993.

注2:在其他的应用领域,信息的定义不同.

3.2

数据data

为进行通信、解释和处理而使用的信息((3.1)的形式化表现形式。

注:本条改自ISO/IEC2382-1:19930

3.3

数据处理dataprocessing

对数据((3.2)进行的系统性操作。

例:对数据((3.2)进行算术运算或逻辑运算,数据((3.2)的归并((9.5)或排序((9.4),程序的汇编或编

译,以及对文本((3.6)的操作,如文本编辑(12.3)、分类、归并((9.5)、存储、检索、显示((9.6)、打印等。

注:本术语不能作为信息处理((3.4)的同义术语。

3.4

信息处理informationprocessing

用计算机对信息(3.1)进行的系统性操作,它包含数据处理((3.3),

GB/T17532-2005

注1:本术语不能作为傲据处理((3.3)的同义术语。

注2:本条改自ISO/IEC2382-1;1993,

3.5

语言处理languageprocessing

对语言进行的信息处理((3.4),

例:校对,可以通过智能化处理和拼写检查来进行校对。但这两种做法是可选的。

3.6

文本text

以字符(6.1)、符号、词、短语、句子、段落、表格或其他的符号序列等形式构成用于表达某种意义的

数据((3.2)。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。

注:本条引自ISO/IEC2382-1;1993.

3.7

文本语料库textcorpus

语料库corpus

(语言工程)根据预先确定的规则所准备、编码或存储的机器可读的许多完整文本(参阅7.4)或部

分文本的系统化集合。

注:文本语料库可按专业领域、容量或时期做不同的限定,例如,从1986年以来的某些特定的期刊、数学文本等.

文本语料库可用作进一步的语言分析或术语工作的原材料。

3.8

词型type

<语言工程>文本((3.6)中代表一个确定类别的语言单位。

注:这种语言单位通常是未用定界符((3.10)隔开的不间断的字符串。汉语通常未用定界符。

3.9‘

词例token

<自然语言处理)词型((3.8)在文本中的具体出现形式。

3.10

定界符delimiter

分隔符separator

用于指明一个字符串((6.13)的开始或结尾的一个或多个字符((6.1).

注1:本条引自ISO/IEC2382-4:1999,

注2:空白符或标点符号经常用作定界符.

3.11

词形wordform

给定词的任何形态句法变体。

例:在英语中,indicateIindicates;visitorIvisitor's.

注:在屈折语中,词形经常是屈折形式,例如,英语的go,goes;以及go,went,gone.

3.12

词形变化范型paradigm

<自然语言处理)属于某一给定词或词组型术语的各个词形((3.11)的类聚。

3.13

基本词形baseform

参照词形referenceform

根据词典编纂学的惯例选出的用以表示一个词形变化范型((3.12)中的各个形式的词形((3.11)0

例:在英语中,bind是bind,bound,binds,binding等的基本词形。

GB/T17532-2005

注1:本条改自GB/T15237.1-2000.

注2:术语“基本词形”也可以应用于词组型术语。

3.14

多词术语multi-wordterm

包括两个以上字符串((6.13)的术语口

3.15

压缩形compressedform

缩减形reducedform(拒用)

经过压缩(8.4)的字符串。

例:字符串“input/output-algorithm',变成其压缩形“inputoutputalgorithm",

注:术语缩“减形”可能会导致误解,建议避免使用这个术语。

3.16

屈折取消deinflection

取消词形((3.11)中的屈折成分。

3.17

取消屈折的词形deinflectedwordform

在屈折取消((3.16)之后余下的词段((3.18).

3.18

词段wordpart

词片wordsegment

为了某种特殊用途从一个词形((3.1)1中取出的字符串((6.13).

3.19

词形还原lemmatization

从某一给定词形((3.11)生成基本词形((3.13)的过程。

例:在英语中,"go”是",goes"通过屈折取消((3.16)而得到的基本词形((3.13);而“go”是通过不规则

动词变换得到的w“ent"的基本词形(3.13),这种变换不符合标准的屈折规则。

注:这样的结果也称为词形还原。

3.20

句法分析parsing

根据给定的算法,将给定的文本结构分解为其语法、类别,以及(或)词汇等组成成分的操作。

例:在英语句子“allunsaturatedfattyacidsarenotdegradablebybiologicalmethods"中,"allon-

saturatedfattyacids',和“biologicalmethods',可看成是多词术语(3.14),它们可以被抽取(8.9),

注:句法分析不一定必须提供对某一句子结构的完整分析

3.21

术语数据集合terminologicaldatacollection

包含特定专业领域有关各种概念信息((3.1)的数据((3.2)集合。

3.22

术语条目terminologicalentry

术语数据集合((3.21)中所包含的与一个概念相关的术语数据((3.2),

3.23

同形词homograph

两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形

或词。

GB/T17532-2005

例:在英语中,lead(铅Pb)和lead(领导);

bark(吠)和bark(树皮)。

在汉语中,仪表人〔的外表)和仪表(测量温度、压力等的仪器);

杜鹃(布谷鸟)和杜鹃(映山红)。

注:具有不同书写形式但经过压缩(8.4)之后变为同形的词形(3.11)不算同形词.

3.24

歧义消解disambiguation

通过赋予同形词贴切的概念或贴切的句法功能从而分化同形词((3.23)的过程,或者通过赋予同形

词组以不同的语言解释来分化同形词组的过程。

例:在汉语中,分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分

别为动宾结构和偏正结构。

数据组织

4.1

排序值sortvalue

sortingvalue

根据预先确定的顺序,字符集((6.2)中某一元素所在的位置。

例:在法语中,字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字母具有

相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时按不

同的字母来处理。

4.2

排序关键字sortkey

sortingkey

用于满足排序((9.4)和归并((9.5)操作要求的字符串((6.13).

例:当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关

键字。如果同一个作者有两个题目,则把出版年份或题目作为附加的分类关键字。

4.3

字母排序alphabeticalordering

在排列字符串((6.13)时,列表中的每一个串((6.12)的位置唯一地由从该串((6.12)头部开始的排序

值((4.1)来确定。

注1:带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可能需要赋予特殊的分类值.

注2字母排序的规则可以因语言的不同而不同.

4.4

逆字母排序reversealphabeticalordering

在组织字符串((6.13)时,列表中的每一个串((6.12)的位置唯一地由从该串((6.12)尾部开始的排序

值((4.1)来确定。

4.5

频度顺序frequencyorder

在特定的文本((3.6)或文本语料库((3.7)中,根据词例((3.9)出现频度上升或下降的顺序来排列的词

型((3.8)的顺序。

注:在通常情况下,列表的类型是词形((3.11)频度表或原形词频度表

4.6

轮排permutation

使词组型术语中每个实词都作为关键词进行的排序。

GB/T17532-2005

例:在英语中,对字符申“millionsofinstructionspersecond"[MIPS]轮排时,"instructions,millions

ofperseconds","second,millionsofinstructionsper',等形式分别出现在“instructions"和“second',等实

词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。

注:本条改自GB/T15237.1-2000

4.7

拼接concatenation

两个以上的字符串((6.13)按特定的顺序合并,形成一个新的串((6.12),其长度等于各个字符串

(6.13)长度的和。

5术语数据的筛选

非用词表exclusionlist

停用词表stopwordlist

在数据处理((3.3)中用户所选择的不予考虑的字符串((6.13)组成的表。

注1:在术语工作中,产生被忽略的功能词(代词、冠词等)词表可能是有益的。

注2:有时,非用词表中的字符串((6.13)可以被保留下来(例如在相关句列((5.4)中),但是不注明其频度。

5.2

拟用词表inclusionlist

加用词表pluswordlist

用户所选择的、需要保存或认为要进一步数据处理((3.3)的字符串((6.13)组成的表。

例:凡包含“bank"(银行)或“creditinstitution"(信用机构)的所有的句子都抽出;

凡以"M”起头的所有的条目在名字索引中都检索出来;

凡以“anti-”开头的所有的单词都选出来。

注:如果适合的话,拟用词表也可以包含词段(3.18)或其他的字符串((6.13)

5.3

自由文本搜索free-textsearch

在文本((3.6)或文本语料库((3.7)中进行的,能够使用户检索任何词型((3.8)之具体形式的搜索

(8.7)e

5.4

相关句列concordance

(计算机应用)按字母顺序排列的词形((3.11)表,其词形(3.11)是从文本((3.6)中抽取((8.9)出来的,

包括要检索的词形((3.11)以及文本中该词形((3.11)之前和之后的可选择部分。

注:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引。

5.5

索引index

<自然语言处理>字符串((6.13)以及标示着其在文本((3.6)或文本语料库((3.7)中所处位置的标引与

键值的列表。

5.6

术语索引termindex

参照词汇或术语数据库((7.6)中的术语条目((3.22)而编制的索引((5.5)

注:术语索引中的术语可以按照字母来排序,也可以按照系统性顺序来排序。

5.7

字母索引alphabeticalindex

按字母顺序排列的索引((5.5).

GB/T17532-2005

5.8

系统索引systematicindex

所有的术语排列能反映特定专业领域中概念之间的系统关系的索引(5.5),

5.9

轮排索引permutedindex

按轮排(4.6)方式列出的字母索引(5.7)e

5.10

逆序索引。verseindex

按逆字母排序((4.4)列出的术语索引((5.6).

5.11

倒排索引invertedindex

列出文本((3.6)中的全部词型((3.8)以及全部对应词例((3.9)的索引((5.5),

5.12

词形索引wordformindex

词索引wordindex

文本((3.6)或文本语料库((3.7)中所有词形((3.11)及其所处位置的全部标引所构成的索引。

5.13

还原词索引lemmatizedwordindex

其中的词形((3.11)是以相应的基本词形((3.13)来代表的词形索引((5.12),

6字符

宇符character

用于表示、组织或控制数据((3.2)的元素集中的成员。

本条引自ISO/IEC2382-4;19990

注:字符可以分为图形字符和控制字符。

6.2

字符集characterset

不同字符((6.1)的有限集合,它对于一定的目的而言是完整的。

例:ISO646的国际参照本;

128个ASCII字符。

注:本条引自ISO/IEC2382-4:1999,

6.3

图形字符graphiccharacter

一种具有可视表示形式.通常可以写(9.2)、印刷或显示((9.6)的字符((6.1),它不同于控制字符((6.9),

注1:本条引自ISO/IEC2382-4:19990

注2:图形字符可以是字母字符(6.5),傲字((6.7)或特殊字符(6.8).

6.4

字母数字字符alphanumericalcharacter

或者是字母宇符((6.5),或者是数字((6.7),

6.5

字母字符alphabeticalcharacter

图形字符(6.3)中用于书面表示给定语言的字母。

GB/T17532-2005

注:它包括带发音符号的字母。

6.6

字母表alphabet

按公认的线性次序排列的字母字符(6.5)集。

注1:本条改自ISO/IEC2382-4;1999,

注2:这个定义也理盖了由字母字符(6.5)及带发音符号的字母字符(6.5)所组成的自然语言的字母表。

6.7

数字digit

数字字符numericcharacter

表示非负整数的字符((6.1).

注:本条引自ISO/IEC2382-4:1999,

6.8

特殊字符specialcharacter

不是字母数字字符(6.4)的图形宇符(6.3),

例:任何标点符号,and符号[&],百分符号[%〕,加号[+〕等都是特殊字符。

注:本条改自ISO/IEC2382-4;1999,

6.9

控制字符controlcharacter

在特定上下文中出现并规定着某种控制功能的字符(6.1),

注1:本条引自ISO/IEC2382-4:19990

注2:控制字符((6.1)启动、修改和停止傲据处理((3.3)的操作。

6.10

间隔符spacecharacter

引起打印或显示位置沿着直线向前移动一个位置,而不产生任何图形字符((6.3)的控制字符((6.9),

注:本条改自ISO/IEC2382-4:1999.

6.11

空白符blank

在图形字符((6.3)串中表示一个空位置的字符((6.1),

注:本条引自ISO/IEC2382-4:1999

6.12

串string

由具有相同性质的元素组成的作为总体来看的序列。

例:字符((6.)1、二进制位或脉冲等组成的序列。

注:本条改自ISO/IEC2382-4:1999

6.13

字符串characterstring

未被空白符隔开的由多个字符(6.1)组成的序列。

注:一个字符串(6.13)常常代表一个单词.

6.14

模式pattern

某些字符((6.1)或字符列已经由变量所替换的串((6.12),

注:本条参照GB/T12991-1991a

6.15

汉字Chinesecharacter

记录汉语的文字。

GB/T17532-2005

6.16

汉字字形characterform

特指构成方块汉字((6.15)的二维图形。

注:本条引自GB/T12200.2-1994.

6.17

笔画stroke

构成汉字字形((6.16)的最小连笔单位。汉字最基本笔画有横(一)、竖(1)、撇(/)、点(、)、折

(一)等。

注:本条引自GB/T12200.2-1994.

6.18

笔顺strokeorder

书写每个汉字((6.15)时的笔画((6.17)的次序和方向。

注:本条引自GB/T12200.2-1994

6.19

笔数strokecount

构成一个汉字((6.15)或汉字部件(6.20)的笔画(6.17)数。

注:本条引自GB/T12200.2-1994,

6.20

汉字部件Chinesecharactercomponent

由笔画((6.17)组成的具有组配汉字((6.15)功能的构字单位。现代汉字部件按是否成字可分为成字

部件与非成字部件。

例:成字部件:木、心、口、也

非成字部件:1,4、9.4。

注:本条引自(3B/T12200.2-19940

6.21

部首indexingcomponent

一部分可以成批构字的部件。凡含有某一部件构成的字在字典中均排列在一起,该部件作为领头

单位排在开头,成为查字的依据,称为部首。部首多为形旁构成。

例:木(松、柏、杨、架、杏、林、相)。

注:本条引自GB/T12200.2-1994.

6.22

偏旁radical

合体字的构字单位的传统称呼,旧称合体字(由两个或两个以上汉字部件构成),左为偏,右为旁,现

代统称偏旁。偏旁本为独体字,在古代汉字((6.15)中偏旁一般与单独成字时形状相同,现代汉字((6.15)

偏旁有一些变化,如“心”在左为“寸”;“刀”在右为“吐”;“火”在下为“产;左边的“阜”和右边的“邑”均作

“R”等。

注:本条引自GB/T12200.2-1994..

数据存储

数据媒体datamedium

用来记录数据((3.2)并且检索数据((3.2)的物理媒体。

例:磁盘,光盘,缩微胶片。

注1:本条改自I50/IEC2382-1:1993

GB/T17532-2005

注2:在图书和文献工作的领域,数据媒体被看作数据载体

7.2

格式format

<数据处理》数据((3.2)预先确定的组织形式。

注:格式可进一步分为输人格式、存储格式和输出格式

7.3

数据采集dataacquisition

收集数据((3.2)或将数据((3.2)装人、存储在数据处理系统中的过程。

7.4

机器可读数据machine-readabledata

可直接用于数据处理系统的数据((3.2),简称机读数据。

7.5

数据库database

按照预定结构组织成的数据((3.2)集合。

注:本条改自ISO/IEC2382-1:1993,

7.6

术语数据库terminologicaldatabase

包含术语数据的数据库((7.5).

7.7

数据库集databank

包含数据记录、处理以及管理框架的数据库((7.5)的集合。

7.8

术语库termbank

术语数据库terminologicaldatabank

含有术语数据((3.2)的数据库集(7.7)0

7.9

记录record

作为一个单位来对待的数据元((7.11)的集。

定制服务

    推荐标准