T/CAPT 008-2023 数据新闻制作流程

T/CAPT 008-2023

团体标准 中文(简体) 现行 页数:21页 | 格式:PDF

基本信息

标准号
T/CAPT 008-2023
标准类型
团体标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2023-12-29
实施日期
2024-01-01
发布单位/组织
-
归口单位
中国新闻技术工作者联合会
适用范围
主要技术内容:本文件规定了数据新闻制作流程,包括数据获取、媒资存储、加工制作、评估反馈及发布各个环节的技术要求。本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构进行基于图文类、动画类、视频类以及交互类数据新闻的内容制作

发布历史

研制信息

起草单位:
武汉镝次元数据科技有限公司、新华通讯社、新华网融媒体未来研究院、新华智云科技有限公司、新华网(北京)科技有限公司、武汉大学、武汉市探测者科技有限公司、北京吾见数据科技有限公司
起草人:
魏漫江、路海燕、王琼、王诗盼、张静、谢军波、赵越、徐亮、刘真
出版信息:
页数:21页 | 字数:- | 开本: -

内容描述

ICS35.240

CCSL70

CAPT

团体标准

T/CAPT008—2023

数据新闻制作流程

DataJournalismWorkflow

2023-12-29发布2024-01-01实施

中国新闻技术工作者联合会发布

T/CAPT008—2023

目次

前言III

1范围1

2规范性引用文件1

3术语和定义1

4缩略语1

5数据新闻制作流程2

6数据获取2

6.1数据获取内容2

6.2数据获取技术5

6.3数据获取质量控制6

7媒资存储7

7.1媒资分类7

7.2格式化存储7

7.3格式转换7

8加工制作7

8.1数据内容核验7

8.2数据可视化设计要求7

8.3数据新闻加工制作功能要求9

9评估反馈14

9.1数据新闻内容安全审核14

9.2数据新闻质量评估18

9.3传播效果评估19

参考文献20

II

T/CAPT008—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社、武汉镝次元数据

科技有限公司联合提出。

本文件由中国新闻技术工作者联合会提出并归口。

本文件起草单位:武汉镝次元数据科技有限公司、新华通讯社、新华网融媒体未来研究院、新华智

云科技有限公司、新华网(北京)科技有限公司、武汉大学、武汉市探测者科技有限公司、北京吾见数

据科技有限公司

本文件主要起草人:魏漫江、路海燕、王琼、王诗盼、张静、谢军波、赵越、徐亮、刘真

III

T/CAPT008—2023

数据新闻制作流程

1范围

本文件规定了数据新闻制作流程,包括数据获取、媒资存储、加工制作、评估反馈及发布各个环节

的技术要求。

本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构进行基于图文

类、动画类、视频类以及交互类数据新闻的内容制作。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

T/CAPT001-2018基于HTML5的融媒体新闻技术规范

3术语和定义

3.1

数据新闻datajournalism

一种基于数据的研究调查、获取、存储、挖掘、统计、分析、发布和显示输出的新型新闻报道方式。

3.2

图表chart

是一种对知识挖掘和信息直观生动呈现起关键作用的图形结构,也是一种将对象属性数据直观呈

现的可视化手段,可直观展示统计信息属性(时间性、数量性)等,常以使用的图像命名,如柱状图、

折线图、面积图等。

3.3

图例legend

图表中对内容区元素的注释、用不同形状、颜色、文字等来标示不同数据列。

3.4

字段field

一种表示对象或类关联的变量,如表的“列”可称为“字段”。

3.5

格式塔原则gestalt

主张人脑的运作原理属于整体论,“整体不同于其部件的总和”。

4缩略语

API:应用编程接口(ApplicationProgrammingInterface)

JSON:JS对象简谱(JavaScriptObjectNotation)

XML:可拓展标记语言(ExtensibleMarkupLanguage)

PCM:脉冲编码调制(PulseCodeModulation)

HTML:超文本标记语言(HyperTextMarkupLanguage)

1

T/CAPT008—2023

CSS:层叠样式表(CascadingStyleSheets)

JPEG:一种静止图像的压缩标准(JointPhotographicExpertsGroup)。JPEG文件的后缀名

为.jpg或.jpeg。

PNG:一种采用无损压缩算法的位图格式(PortableNetworkGraphics)。PNG文件的后缀名为.png。

GIF:一种图像文件格式标准(GraphicsInterchangeFormat)。GIF文件的后缀名为.gif。

WebP:一种同时提供了有损压缩与无损压缩(可逆压缩)的图片文件格式。WebP文件的后缀名

为.webp。

TIFF:一种标签图像文件格式(TagImageFileFormat)。TIFF文件的后缀名为.tiff。

BMP:一种图像文件格式(Bitmap)。BMP文件的后缀名为.bmp。

Base64:一种用于传输8Bit字节码的编码方式。

URL:统一资源定位符(UniformResourceLocator)

ID:标识符(Identifier)

SDK:软件开发工具包(SoftwareDevelopmentKit)

HSPA:高速分组接入(High-SpeedPacketAccess)

EVDO:CDMA网络的3G网络制式(CDMA20001xEV-DO)

EDGE:增强型数据速率GSM改进技术(EnhancedDataRateforGSMEvolution)

GPRS:通用分组无线电服务(GeneralPacketRadioService)

WLAN:无线局域网络(WirelessLocalAreaNetwork)

CMS:内容管理系统(ContentManagementSystem)

PPT:演示文稿软件(PowerPoint)

MP4:一种标准的数字多媒体容器格式((MPEG-4Part14)

OFD:开放版式文档(OpenFixed-layoutDocument))

5数据新闻制作流程

图1数据新闻制作流程

6数据获取

6.1数据获取内容

2

T/CAPT008—2023

6.1.1图文数据获取

通过爬虫技术获取新闻站点、即时通讯、社交媒体平台、专业机构数据、开放数据库等平台图文

数据,采集字段见表1。

表1图文数据采集字段

字段名称选择字段数据类型描述

news_id必填字符串新闻唯一身份标识

data_source必填字符串新闻数据源

source_url必填字符串数据源的新闻统一资源定位符

publish_timestamp必填字符串新闻发布时间戳,单位为毫秒

author必填字符串作者,字符串数组

editor必填字符串编辑,字符串数组

source必填字符串新闻来源,字符串数组

site必填字符串新闻站点

domain必填字符串新闻域名

title必填字符串标题

original_content必填字符串原始新闻正文

content_text必填字符串新闻正文文本

content_image_url_li

非必填字符串新闻原始正文图片列表

st

content_image_oss_ur

非必填字符串新闻转存正文图片列表

l_list

thumbnail_image_url_

非必填字符串新闻原始缩略图列表

list

thumbnail_image_oss_

非必填字符串新闻转存缩略图列表

url_list

original_keywords非必填字符串原始新闻关键词

fetch_timestamp非必填字符串新闻抓取时间戳,单位为毫秒

6.1.2短视频数据获取

通过爬虫技术采集主流短视频平台视频数据,即时通讯、社交媒体平台等。采集字段见表2。

表2短视频数据采集字段

字段名称选择字段数据类型描述

cid非必填字符串内容唯一身份标识

title非必填字符串内容标题

url非必填字符串内容播放页地址

thumbnail非必填字符串内容封面

publish非必填字符串内容发布时间

platform非必填字符串内容发布平台

play_count必填整数内容播放数,部分平台为空

like_count必填整数内容点赞数,部分平台为空

data_update_time非必填字符串内容数据更新时间

video_duration非必填整数视频时长

media_mid非必填字符串发布账号唯一身份标识

media_name非必填字符串发布账号名称

3

T/CAPT008—2023

表2短视频数据采集字段(续)

字段名称选择字段数据类型描述

media_avatar非必填字符串发布账号头像

发布账号认证状态,“1”为认证账号,“0”为未认证账

media_is_verified非必填整数

6.1.3用户行为数据获取

通过用户使用行为数据获取技术,采集网站、客户端用户访问、使用数据、用户评论、用户转

发,用于后续分析、统计用户行为特点。采集字段见表3。

表3用户行为数据采集字段

类型字段名字段说明

appkey应用唯一身份标识

log_id日志唯一身份标识

ipIP地址

idfa广告标示符

imei移动设备国际身份码的缩写

imsi国际移动用户识别码

lon地理位置经纬度

lat地理位置经纬度

log_time客户端时间戳

over_time服务器时间戳

brand设备品牌

埋点SDK提

device_mode设备型号

scr屏幕宽度*屏幕高度

carrier网络运营商

access连接的网络,如:4G、5G、WLAN等

access_subtype网络类型,如:HSPA、EVDO、EDGE、GPRS等

lang客户端语言

os操作系统

os_version操作系统版本

channelAPP安装渠道

app_nameAPP名称

app_versionAPP版本号

sdk_versionSDK版本

item_id内容唯一身份标识

item_type内容类型,比如图文、视频、直播等

bhv_type行为类型,例如曝光、停留、点击、收藏、下载等

user_id用户唯一身份标识,已登陆用户必填

page_name页面名称,如首页、用户中心、搜索页等

用户输入module_name模块名称,如:为你推荐、热门等

action_status事件状态,“1”为点赞/收藏,“0”为取消点赞/取消收藏

share_to分享渠道,即时通讯、社交媒体平台、复制链接等

duration时长(单位秒),具体行为消耗时长,如页面浏览时长、视频播放时长等

keyword搜索关键词

error_codeAPP报错编码

4

T/CAPT008—2023

6.2数据获取技术

6.2.1数据获取系统技术架构

图2数据获取系统技术架构设计图

数据获取系统技术架构分为数据层、中间件、服务层、接口层和展现层,见图2,架构说明:

a)数据层:包含本地文件存储、分布式对象存储、关系型数据库,为数据采集系统提供结构化内容

数据以及图片、音频、视频等资源文件的存储和检索服务。

b)中间件:包含消息队列、分布式缓存、日志服务、分布式调度等服务。

5

T/CAPT008—2023

c)服务层:包含种子管理、采集服务、处理服务、推送服务等子系统,是数据采集系统核心功能

层,为整个系统提供数据抓取及分发能力。

d)接口层:包括创建种子接口、提交抓取接口、修改优先级接口、修改种子接口、重置抓取接口、

下发数据接口,为展现层提供数据展现和业务处理能力。

e)展现层:包含自动采集、主动采集、站点管理、任务管理、资源管理和热点管理等功能。

6.2.2数据获取系统业务流程

数据获取系统可获取网站的详情页内容进行数据获取,也可将网站转换为种子源进行定时任务采

集,采集后的数据会经过解析和清洗,针对纯文字部分直接入库到内容库。图片、音频、视频内容需进

行下载、上传处理后入库到内容库,然后将数据推送至汇聚内容库子系统或CMS等相关业务系统内,见

图3。

图3数据采集系统业务流程

6.3数据获取质量控制

数据质量评价指标框架见图4。

图4数据质量评价指标

数据质量评价指标的要求说明:

6

T/CAPT008—2023

a)规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。

b)完整性:按照数据规则要求,数据元素被赋予数值的程度。

c)准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。

d)一致性:数据与其它特定上下文中使用的数据无矛盾的程度。

e)可靠性:数据处于客观真实的状态,真实、及时、完整、可靠。

f)时效性:数据在时间变化中的正确程度。

g)可访问性:数据能被访问的程度。

7媒资存储

7.1媒资分类

对不同来源的媒资进行分类。

7.2格式化存储

按照图片、音频、视频的格式分类存储。

7.3格式转换

根据不同的媒资用途进行相应的格式转换。

8加工制作

8.1数据内容核验

8.1.1数据备份核验

为避免数据后续处理过程中意外出现数据遗失的情况,操作前对数据进行备份。

8.1.2数据完整性核验

检查数据是否爬取完全,确定数据的完整性和可用性。如表格翻页,是否获取到所有翻页页面的相

关信息。

8.1.3字段名称核验

检查数据同一变量的字段名称是否统一。如果存在名称不统一的情况,需将表格中相关变量的名称

进行统一。

8.1.4数据处理的可重复性核验

数据处理后得到的数据结论应当具有可重复性。因此需重复数据处理操作,以确保数据处理的准确

无误。

8.1.5引用数据及研究结论溯源

除网页获取到的数据,数据新闻还会引用报告、研究中的数据。在引用之前需核查数据来源和数据

处理方式,确定数据以及结论的科学可靠。

8.2数据可视化设计要求

8.2.1设计原则

显示设备

在进行数据可视化的过程中,需要考虑阅读设备特性。阅读设备特性直接影响了数据可视化的设计

方式。具体来说,阅读设备特性宜从以下方面进行识别:

a)硬件尺寸:用户主要在移动通信终端阅读数据新闻,因此宜充分考虑主流移动通信终端屏幕尺

寸进行图文、视频以及交互作品设计。

b)屏幕分辨率:数据新闻作品的清晰呈现宜考虑移动端屏幕分辨率。

7

定制服务

    推荐标准

    相似标准推荐

    更多>