GB/T 17532-1998 术语工作 计算机应用 词汇

GB/T 17532-1998 Terminology work—Computer applications—Vocabulary

国家标准 中文版 被代替 已被新标准代替,建议下载标准 GB/T 17532-2005 | 页数:22页 | 格式:PDF

基本信息

标准号
GB/T 17532-1998
相关服务
标准类型
国家标准
标准状态
被代替
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
1998-11-05
实施日期
1999-06-01
发布单位/组织
国家质量技术监督局
归口单位
国家语言文字工作委员会语言文字应用研究所
适用范围
-

发布历史

研制信息

起草单位:
-
起草人:
冯志伟、李莉、王渝丽、俞士汶、周智佑、宋正良、李竹等
出版信息:
页数:22页 | 字数:41 千字 | 开本: 大16开

内容描述

GB/T17532-1998

前言

本标准等效采用ISO/DIS1087-2-2:1996术《语工作词汇第二部分计算机应用》。

本标准根据我国的实际情况和汉语、汉字的特点,在等效采用ISO/DIS1087-2-2:1996时,主要做

了以下改动:

1根据我国术语工作标准的命名习惯.将标准名称改为《术语工作计算机应用词汇》

2,把某些术语注中的内容,直接引入到定义中,把定义中的内容改为注。

3·增加了部分中文例。

4从GB/T12200.2-1994汉《语信息处理词汇02部分:汉语和汉字》中引入了8条有关汉字字

符的术语。

5.删去了附录B文献目录。

本标准是术语数据库的系列国家标准之一,已经发布的配套标准有:

GB/T13725-1992建立术语数据库的一般原则与方法

GB/T13726-1992术语与辞书条目的记录交换用磁带格式

GB/T15387.2-1994术语数据库开发指南

GB/T15387.1-1994术语数据库开发文件编制指南

GB/T15625-1995术语数据库技术评价指南

GB/T16785-1997术语工作概念与术语的协调

GB/T15786-1997术语工作计算机应用数据类目

本标准由全国术语标准化技术委员会提出。

本标准由国家语言文字工作委员会语言文字应用研究所归口。

本标准由国家语言文字工作委员会、中国标准化与信息分类编码研究所、中国大百科全书出版社、

北京大学计算语言学研究所、中国科技信息研究所等单位起草。

本标准由全国术语标准化技术委员会计算机辅助术语工作分技术委员会负责解释。

本标准的附录A和附录B是提示的附录。

本标准主要起草人:冯志伟、李莉、王渝丽、俞士汝、周智佑、宋正良、李竹等。

GB/'r17532-1998

ISO前言

国际标准化组织(ISO)是各国家标准化团体((ISO成员团体)的一个世界范围的联盟。国际标准的

制定工作通常是通过ISO的技术委员会进行的,对某个已成立了技术委员会的专业领域感兴趣的成员

团体都有权参加该委员会。与ISO有联系的官方和非官方的国际组织也参与这项工作。ISO在电工技

术标准化方面与国际电工委员会G(EC)紧密合作。

委员会所采纳的国际标准草案需分发给各成员团体投票表决,作为国际标准发布时要求至少7500

的成员团体投票批准。

国际标准ISO1087-2是由ISO/TC37/SC3“术语工作(原则与协调)技术委员会第3分委员会

—计算机辅助术语工作分委员会”制定的。

作为ISO1087:199。第7章的技术修订,本标准废止并同时取代该标准的这部分。ISO1087:1990

主要章节的技术修订将发展为ISO1087-1,

附录A和附录B是提示性附录。

中华人民共和国国家标准

GB/T17532一1998

术语工作计算机应用词汇eqvISO/DIS1087-2-2:1996

Terminologywork-Computerapplications-Vocabulary

0导言

本标准的条目按顺序给出,每部分设一个一般性的标题。在通常的情况下,后面的条目原则L应该

山前面出现的条目来定义。

条目的格式按GB/T1.5-1997的规定。

条目的内容顺序如下:

条目编号

优先术语(黑体)

缩写形式(黑体)

许用术语

拒用术语:括号中注明“(拒用)”

专业领域用尖括号<>

定义引用的术语用黑体标出,并在后面用括号注明条目编号

除了条目编号之外,优先术语和定义仅在适当的地方出现。

1范围

本标准规定了在术语工作和术语编纂中用于语言和信息处理的术语。

本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及米语数据处理的工作中也可

参考使用。

2引用标准

下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均

为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。

GB/T12200.2-1994汉语信息处理词汇。2部分:汉语和汉字

GB/T12991-1991信息处理系统数据库语言SQ-I(idtISO/IEC9075:1989)

GB/T15237-1994术语学基本词汇(neqISO1087:1990)

GB/T5271.8-1993数据处理词汇08部分:控制、完整性和安全性(eqvISO2382-8:1986)

ISO/IEC2382-1:1993信息技术词汇第1部分:基本术语

ISO2382-4:1987信息处理系统词汇第4部分:数据的组织

ISO2382-6:1987信息处理系统词汇第6部分;数据的准备和处理

ISO/IEC2382-9:1994信息技术词汇第9部分:数据通信

ISO/IEC2382-23:1994信息技术词汇第23部分:文本处理

国家质量技术监督局1998一11-05批准1999一06一01实施

cs/T17532-1998

3一般概念

3.1信息information

<信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识.它在一定的上下文中具有特定的

意义。

1本条引自ISO/IEC2382-1

2在其他的应用领域,信息的定义不同。

3.2数据data

为进行通信、解释和处理而使用的信息(3-1)的形式化表现形式

注:本条改自ISO/IEC2382-1,

3.3数据处理dataprocessing

UP

对数据((3-2)进行的系统操作。

例:对数据进行算术运算或逻辑运算,数据的归并(9-5)或分类(9.4),程序的汇编或编译,以及对

文本(3.6)的操作,如文本编辑(12.3)、分类、归并、存储、检索、显示((9.6)、打印等。

注:本术语不能作为信息处理((3-4)的同义术语

3-4信息处理informationprocessing

对信息(3-1)进行的系统操作,言‘包含数据处理((3.3)c

1本条改自ISO/IEC2382-10

2本术语不能作为数据处理((3.3)的同义术语。

3.5语言处理languageprocessing

对语言进行的系统操作,它包括数据处理((3.3)

3.6文本text

以字符(6-1)、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化

数据((3.2)。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。

注本条引自ISO/IEC2382-1.

3.7文本语料库textcorpus

语料库corpus

<自然语言处理>根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7-4)或文木的

某些部分的有组织集合。

注;文本语料库可按专业领域、容量或时代做不同的限定,例如.从1986年以来的某些特定的期刊、数学文本等

文本语料库可用作进一步的语言分析或术语工作的原材料。

3.8类型type

<自然语言处理>文本((3-6)中代表一个确定类别的语言单位。

往这种语言单位通常是未用定界符(3.10)隔开的不间断的字符串。

3.9类例token

<自然语言处理)类型((3-8)在文本中的具体表现形式。

例:在英语中,如果把good的所有词形定义为类型,那么good,better和best等都是词形good的

类例。

3.10定界符delimiter

分隔符separator

用于指明一个字符串((6.13)的开始或结尾的一个或多个字符((6.1)0

BGr/'17532-1998

I本条引自ISO2382-4

2空白或标点符号经常用作定界符

3.11词形wordform

给定词的任何形态句法变体。

例:在英语中,indicate:indicates,

visitor:visitor's.

I在屈折语中,词形经常是屈折形式,例如,英语的go,goe5;以及go,went,gone.

2这个定义不包含正词法方面的变体

3.12词形变化范型paradigm

<自然语言处理)属于某一给定词的各个词形(3.11)的类聚。

3,13墓本词形baseform

参照词形referenceform

根据词典编纂学的惯例选出的用以表示一个词形变化范型(3.12)中的各个形式的词形((3.11).

例:在英语中,bind是bind,bound,binds,binding等的基本词形

1本条改自GR/T15237--19940

2术语基‘本词形’,也可以应用于词组型术语

3.14词组型术语multi-wordterm

包括两个以上词的术语。

3.15压缩形compressedform

规定形normalizedform(拒用)

缩减形reducedform(拒用)

经过压缩(8-4)的字符串。

例:字符串“input/output-algorithm”变成其压缩形“inputoutputalgorithm",

注:术语缩“减形”和“规定形’.可能会导致误解,建议避免使用这两个术语。

3.16取消屈折deinflection

取消词形(3.11)中的屈折成分。

117取消屈折的词形deinflectedwordform

在取消屈折((3.16)之后余下的词段((3-18).

3.18词段wordpart

词片wordsegment

为了某种特殊用途从一个词形(3.11)中取出的字符串((6.13),

3.19词形还原lemmatization

从某一给定词形(3.11)生成基本词形(3.13)的过程。

例:在英语中,}go是"goes"通过取消屈折(3.16)而得到的荃本词形(3.13);而g“o"是"went"通

过不规则动词变换得到的墓本词形(3.13),这种变换不符合标准的屈折规则。

注:这样的结果也称为词形还原。

3.20、剖析parsing

根据给定的算法,将给定的结构分解为其组成成分的操作。

例:在英语句子“allunsaturatedfattyacidsarenotdegradablebybiologicalmethods”中,"all

unsaturatedfattyacids”和b“iologicalmethods”可看成是词组型术语(3.14),它们可以被抽取

(8-9)。

GB/T17532-1998

注:剖析不一定必须提供对某一句子的完整分析。

3.21术语数据集合terminologicaldatacollection

包含特定专业领域有关各种概念的信息(3-1)数据((3.2)集合。

3.22术语条目terminologicalentry

术语数据集合((3.21)中所包含的关于一个概念的术语数据((3.2).

注:一个术语条目可以包含两个以上的记录(7.9),

3.23同形词homograph

两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形

或词。

例:在英语中,lead铅Pb)和lead(领导);

bark(吠)和bark(树皮)。

在汉语中,仪表(人的外表)和仪表(测量温度、压力等的仪器);

杜鹃(布谷鸟)和杜鹃(映山红)。

注具有不同书写形式但经过压缩(8-4)之后变为同形的词形(3.11)不算同形词

3-24歧义消解disambiguation

通过赋子同形词贴切的概念或贴切的句法功能从而分化同形词(3.23)的过程,或者通过赋予同

形词组以不同的语言解释来分化同形词组的过程。

例:在汉语中,分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构

分别为动宾结构和偏正结构。

4数据组织

4.1分类值sortvalue

排序值sortingvalue

根据预先确定的顺序,字符集(6-2)中某一元素的位置。

例:在法语中,字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字毋具有

相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时

按不同的字母来处理。

4.2分类关祖字sortkey

排序键

用于满足分类(9.4)和归并((9.5)操作要求的字符串((6.13).

例:当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关

键字。如果同一个作者有两个题目,则把出版年份或题目作为附加的分类关键字。

4.3字母排序alphabeticalordering

在组织字符串((6.13)时,表中的每一个串((6.12)的位置唯一地由从该串((6.12)头部开始的分类值

(4.1)来确定.

1带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作为特殊的分类值。

2字母排序的规则可以因语言的不同而不同。

4.4逆字母排序reversealphabeticalordering

在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串((6.12)尾部开始的分类值

(4-1)来确定。

4.5频度顺序frequencyorder

在特定的文本((3-6)或文本语料库(3.7)中,根据类例((3.9)出现频度上升或下降的顺序来排列的

GB/T17532-1998

类型((3-8)的顺序

注在通常情况卜,表的类型是词形((3.11)频度表或原形词频度表。

4.6轮排permutation

使词组型术语中每个实词都作为关键词进行的排序。

例:在英语中,对字符串"millionsofinstructionspersecond"[MIPS〕轮排时,"instructions,mil

lionsofperseconds","second,millionsofinstructionsper"等形式分别出现在“instructions”和

"second”等实词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序

位置。

注:本条改自GB/T15237-1994

4.7毗连concatenation

两个以上的字符串(6.13)按特定的顺序合并,形成一个新的串((6.12),其长度等于各个字符串

(6.13)长度的和。

5术语数据的筛选

5.1非用词表exclusionlist

停用词表stopwordlist

在数据处理((3.3)中任意选择的不予考虑的字符串(6.13)组成的表

1在术语工作中,产生忽略功能词(代词、冠词等)的词表可能是有益的

2有时,非用词表中的字符串可以被保留下来(例如在词语索引6(.4)中),但是不注明其频度

5.2拟用词表inclusionlist

加用词表pluswordlist

要保存或认为要进一步数据处理((3.3)的字符串((6.13)组成的表

例;凡包含b“ank"(银行)或“creditinstitution"(信用机构)的所有的句子都抽出;

凡以M“”起头的所有的条目在名字索引中都检索出来;

凡以a“nti-”开头的所有的单词都选出来。

往如果适合的话,拟用词表也可以包含词段((3.18)或其他的字符串((6.13).

5.3自由文本搜索free-textsearch

在文本语料库((3.7)中进行的,能够检索任何类型(3-8)的搜索(8-7)。

5.4词语索引concordance

<自然语言处理>按字母顺序排列的词形((3.11)表,其词形((3.11)是从原文中抽取((8.9)出来的

包括要检索的词形((3.11)以及该词形((3.11)在原文中的前面部分和后面部分。

往:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引

5.5索引index

<自然语言处理>从一个出处摘出的并属于同一类数据元的有序字符串((6.13)汇集表。

注:本条改自GB/T15237--1994,

5.6术语索引termindex

参照词汇或术语数据库(7.6)中的术语条目((3.22)而编制的索引(5.5),

注:术语索引中的术语可以按照字母来排序,也可以按照其他系统来排序

5.7字母索引alphabeticalindex

按字母顺序排列的索引((5.5).

5.8系统索引systematicindex

所有的术语排列能反映特定专业领域中概念之间的系统关系的索引(5,5)

5.9轮排索引permutedindex

GB/T17532-1998

按轮排((4.6)方式列出的术语索引((5.6),

5.10逆序索引reverseindex

按逆字母排序((4-4)列出的索引((5.5),

5.11倒排索引invertedindex

列出文本(3.6)中的全部类型(3.8)以及全部对应类例((3.9)的索引(5.5)

5.12词形索引wordformindex

词索引wordindex

文本((3.6)中所有词形(3.11)的索引,其中在文本(3-6)中出现两次以上的词形((3.11)用一个单

独的类型(3-8)来代表,并指出其出现次数即《相应的类例((3.9))以及它们的原文参照。

5.13还原词索引lemmatizedwordIndex

用词形((3.11)的荃本词形((3.13)来代表的词形索引((5.12),

6字符

6.1字符character

用于表示、组织或控制数据(3.2)的元素集中的成员。

1本条引自ISO2382-4

2字符可以分为图形字符和控制字符.

6.2字符集characterset

不同字符(6-1)的有限集合,它对于一定的目的而言是完整的。

例:ISO646的国际参照本;

128个ASCff字符。

注:本条引自ISO2382-4,

6.3字母农alphabet

按公认的线性次序排列的字母字符(6.6)集。

1本条改自ISO2382-4,

2这个定义也砚盖了由字符(6.1)组成的自然语言的字母表,这些字符(6.1)包含带发音符号的字母

6.4图形字符graphiccharacter

一种具有视觉表示的,通常可以书写、印刷或显示(9.6)的字符(6.1),它不同于控制字符(6.5),

I本条引自ISO2382-4.

2图形字符可W是字母字符(6-6),橄宇(6.7)或特殊字符(6.9).

615控制字符。ontrolcharacter

在特定上下文中并实现某种控制功能的字符((6.1),

1本条引自ISO2382-4,

2控制字符(6.1)启动、修改和停止橄据处理(3.3)的操作。

6.6字母字符alphabeticcharacter

圈形字符(6.4)中用于书面表示给定语言的字母。

注:它包括带发音符号的字母。

6.7数字digit

数字字符numericcharacter

表示非负整数的字符(6.1),

压23

ca/T17532-1998

注:本条引自ISO2382-4.

6.8字母数字字符alphanumericcharacter

或者是字母宇符(6-6),或者是数字((6-7)的任何字符(6-1)

6.9特殊字符specialcharacter

不是字母数字字符(6-8)的图形字符(6.4)0

例:任何标点符号,and符号衣〔],百分符号仁%〕,加号+「〕等都是特殊字符。

注:本条改自ISO2382-4.

6.10IBS隔字符spacecharacter

引起打印或显示位置沿着直线向前移动一个位置的控制字符((6.5),

注:本条改自ISO2382-40

6.11空白blank

在图形字符((6.4)串中表示一个空位置的字符(6.1)0

注:本条引自ISO2382-4

6.12串string

由具有相同性质的元素组成的作为总体来看的序列。

例:字符((6-1)、二进制位或脉冲等组成的序列。

注:本条改自ISO2382-4

6.13字符串characterstring

未被空白隔开的由多个字符(6-1)组成的序列。

注:一个字符串常常代表一个单词

6.14模样pattern

当用组合字符((6.1)替换某些字符((6-1)时定义的串((6.12),

注:本条参照GB/T12991.

6.15汉字Chinesecharacter

记录书面汉语的文字。

6.16汉字字形characterform

特指构成方块汉字((6.15)的二维图形。

注:本条引自GR/T12200.2

6.17笔画stroke

构成楷书汉字字形((6.16)的最小连笔单位。汉字最基本笔画有横(一)、竖(})、点(、)、撇())、折

(乙)等。

注:本条引自GB/T12200.2.

6.18笔顺strokeorder

书写每个汉字(6.15)时的笔画(6.17)的次序和方一向。

注:本条引自GB/T12200.2.

6.19笔数strokecount

构成一个汉字(6.15)或汉字部件((6.20)的笔画((6.17)数

注:本条引自GB/T12200.2

6.20汉字部件Chinesecharactercomponen吸

由笔画((6.17)组成的具有组配汉字(6.15)功能的构字单位。现代汉字部件按是否成字可分为成

字部件与非成字部件

定制服务