GB/T 45949-2025 中文新闻语义结构化标注

GB/T 45949-2025 Specification for semantic structuring annotation of Chinese news

国家标准 中文简体 现行 页数:40页 | 格式:PDF

基本信息

标准号
GB/T 45949-2025
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2025-06-30
实施日期
2025-06-30
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国中文新闻信息标准化技术委员会(SAC/TC 352)
适用范围
本文件规定了中文新闻语义结构化标注的预处理、关键词标注、语义模板标注和语义单元标注的方法。
本文件适用于新闻内容提供商、媒体应用与研究机构对新闻稿件的人工标注,也能用于机器自动化标注。
本文件不适用于跨稿件的语义结构化标注。

发布历史

文前页预览

研制信息

起草单位:
文灵科技(北京)有限公司、北京语言大学、东南大学、新华通讯社、中国互联网新闻中心、中国信息通信研究院、浙江日报报业集团、保定市数据局(国家数据标注基地)
起草人:
王楠、饶高崎、杨鹏、丁德胜、王熠、付蓉、王贵荣、王建平、黄菁、李荪、贾成喜、张闯、李冰、杨冬梅、周天外、宋永生
出版信息:
页数:40页 | 字数:60 千字 | 开本: 大16开

内容描述

ICS3524030

CCSL.60.

中华人民共和国国家标准

GB/T45949—2025

中文新闻语义结构化标注

SpecificationforsemanticstructuringannotationofChinesenews

2025-06-30发布2025-06-30实施

国家市场监督管理总局发布

国家标准化管理委员会

GB/T45949—2025

目次

前言

…………………………Ⅲ

引言

…………………………Ⅳ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

新闻语义结构化标注概述

4………………2

标注流程

4.1……………2

标注范式

4.2……………3

预处理

5……………………4

标注对象标识符设置

5.1………………4

新闻稿件元数据采集

5.2………………4

关键词标注

6………………5

标注内容

6.1……………5

标注模板

6.2……………5

标注方法

6.3……………5

语义模板标注

7……………6

标注内容

7.1……………6

标注模板

7.2……………14

标注方法

7.3……………15

语义单元标注

8……………16

标注内容

8.1……………16

标注模板

8.2……………17

标注方法

8.3……………18

附录资料性应用场景举例

A()…………23

新闻内容结构化管理

A.1……………23

生成稿件内容知识库

A.2……………23

建立高质量知识图谱

A.3……………23

低耗高效训练人工神经网络模型

A.4………………23

附录资料性新闻语义结构化标注完整示例

B()………24

原文

B.1…………………24

预处理

B.2………………24

关键词标注

B.3…………………………26

语义模板标注

B.4………………………27

语义单元标注

B.5………………………29

参考文献

……………………32

GB/T45949—2025

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任

。。

本文件由全国中文新闻信息标准化技术委员会提出并归口

(SAC/TC352)。

本文件起草单位文灵科技北京有限公司北京语言大学东南大学新华通讯社中国互联网新

:()、、、、

闻中心中国信息通信研究院浙江日报报业集团保定市数据局国家数据标注基地

、、、()。

本文件主要起草人王楠饶高崎杨鹏丁德胜王熠付蓉王贵荣王建平黄菁李荪贾成喜

:、、、、、、、、、、、

张闯李冰杨冬梅周天外宋永生

、、、、。

GB/T45949—2025

引言

随着人工智能技术在新闻领域的广泛应用建立规范化的中文新闻数据加工标准已成为行业发展

,

的重要基础本文件的制定旨在构建统一的中文新闻语义标注体系通过标准化的数据加工流程实现

。,,

以下两大目标一是为新闻知识库与知识图谱的体系化建设提供支撑二是提升人工神经网络模型训练

:;

的数据质量与效率推动新闻行业的智能化转型

,。

GB/T45949—2025

中文新闻语义结构化标注

1范围

本文件规定了中文新闻语义结构化标注的预处理关键词标注语义模板标注和语义单元标注的

、、

方法

本文件适用于新闻内容提供商媒体应用与研究机构对新闻稿件的人工标注也能用于机器自动化

、,

标注

本文件不适用于跨稿件的语义结构化标注

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

中文新闻信息内容第部分新闻元数据

GB/T20092.2—20222:

中文新闻信息分类与代码

GB/T20093—2022

3术语和定义

下列术语和定义适用于本文件

31

.

关键词keyword

代表新闻稿件中特定语义的词汇

注特定语义指标注者认为重要的新闻稿件内容涵盖稿件主题重要人物重要事件及重要常识等

:“”,、、。

32

.

语义单元semanticunit

新闻稿件中表达完整语义的基本单元

注语义单元主要分为实体事物事件等类型是组成包括知识图谱在内的复杂语义结构的基础

:、、,。

33

.

语义单元参数parameterofsemanticunit

描述或限定语义单元的特征量

注语义单元参数包括属性性质方面能力用途类别限定和状态等类型

:、、、()、、。

34

.

语义单元状态stateofsemanticunit

语义单元参数在特定时空中的取值集合

注语义单元状态用于描述事物发展变化的动态性标注时作为语义单元的一个参数来标注

:,,。

35

.

语义模板semantictemplate

表达语义的固定结构

注由核心要素限定要素及其相互关系组成

:、。

1

定制服务

    推荐标准