基本信息
发布历史
-
2023年12月
研制信息
- 起草单位:
- 武汉镝次元数据科技有限公司、新华通讯社、新华网融媒体未来研究院、新华智云科技有限公司、新华网(北京)科技有限公司、武汉大学、武汉市探测者科技有限公司、北京吾见数据科技有限公司
- 起草人:
- 魏漫江、路海燕、王琼、王诗盼、张静、谢军波、赵越、徐亮、刘真
- 出版信息:
- 页数:21页 | 字数:- | 开本: -
内容描述
ICS35.240
CCSL70
CAPT
团体标准
T/CAPT008—2023
数据新闻制作流程
DataJournalismWorkflow
2023-12-29发布2024-01-01实施
中国新闻技术工作者联合会发布
T/CAPT008—2023
目次
前言III
1范围1
2规范性引用文件1
3术语和定义1
4缩略语1
5数据新闻制作流程2
6数据获取2
6.1数据获取内容2
6.2数据获取技术5
6.3数据获取质量控制6
7媒资存储7
7.1媒资分类7
7.2格式化存储7
7.3格式转换7
8加工制作7
8.1数据内容核验7
8.2数据可视化设计要求7
8.3数据新闻加工制作功能要求9
9评估反馈14
9.1数据新闻内容安全审核14
9.2数据新闻质量评估18
9.3传播效果评估19
参考文献20
II
T/CAPT008—2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社、武汉镝次元数据
科技有限公司联合提出。
本文件由中国新闻技术工作者联合会提出并归口。
本文件起草单位:武汉镝次元数据科技有限公司、新华通讯社、新华网融媒体未来研究院、新华智
云科技有限公司、新华网(北京)科技有限公司、武汉大学、武汉市探测者科技有限公司、北京吾见数
据科技有限公司
本文件主要起草人:魏漫江、路海燕、王琼、王诗盼、张静、谢军波、赵越、徐亮、刘真
III
T/CAPT008—2023
数据新闻制作流程
1范围
本文件规定了数据新闻制作流程,包括数据获取、媒资存储、加工制作、评估反馈及发布各个环节
的技术要求。
本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构进行基于图文
类、动画类、视频类以及交互类数据新闻的内容制作。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
T/CAPT001-2018基于HTML5的融媒体新闻技术规范
3术语和定义
3.1
数据新闻datajournalism
一种基于数据的研究调查、获取、存储、挖掘、统计、分析、发布和显示输出的新型新闻报道方式。
3.2
图表chart
是一种对知识挖掘和信息直观生动呈现起关键作用的图形结构,也是一种将对象属性数据直观呈
现的可视化手段,可直观展示统计信息属性(时间性、数量性)等,常以使用的图像命名,如柱状图、
折线图、面积图等。
3.3
图例legend
图表中对内容区元素的注释、用不同形状、颜色、文字等来标示不同数据列。
3.4
字段field
一种表示对象或类关联的变量,如表的“列”可称为“字段”。
3.5
格式塔原则gestalt
主张人脑的运作原理属于整体论,“整体不同于其部件的总和”。
4缩略语
API:应用编程接口(ApplicationProgrammingInterface)
JSON:JS对象简谱(JavaScriptObjectNotation)
XML:可拓展标记语言(ExtensibleMarkupLanguage)
PCM:脉冲编码调制(PulseCodeModulation)
HTML:超文本标记语言(HyperTextMarkupLanguage)
1
T/CAPT008—2023
CSS:层叠样式表(CascadingStyleSheets)
JPEG:一种静止图像的压缩标准(JointPhotographicExpertsGroup)。JPEG文件的后缀名
为.jpg或.jpeg。
PNG:一种采用无损压缩算法的位图格式(PortableNetworkGraphics)。PNG文件的后缀名为.png。
GIF:一种图像文件格式标准(GraphicsInterchangeFormat)。GIF文件的后缀名为.gif。
WebP:一种同时提供了有损压缩与无损压缩(可逆压缩)的图片文件格式。WebP文件的后缀名
为.webp。
TIFF:一种标签图像文件格式(TagImageFileFormat)。TIFF文件的后缀名为.tiff。
BMP:一种图像文件格式(Bitmap)。BMP文件的后缀名为.bmp。
Base64:一种用于传输8Bit字节码的编码方式。
URL:统一资源定位符(UniformResourceLocator)
ID:标识符(Identifier)
SDK:软件开发工具包(SoftwareDevelopmentKit)
HSPA:高速分组接入(High-SpeedPacketAccess)
EVDO:CDMA网络的3G网络制式(CDMA20001xEV-DO)
EDGE:增强型数据速率GSM改进技术(EnhancedDataRateforGSMEvolution)
GPRS:通用分组无线电服务(GeneralPacketRadioService)
WLAN:无线局域网络(WirelessLocalAreaNetwork)
CMS:内容管理系统(ContentManagementSystem)
PPT:演示文稿软件(PowerPoint)
MP4:一种标准的数字多媒体容器格式((MPEG-4Part14)
OFD:开放版式文档(OpenFixed-layoutDocument))
5数据新闻制作流程
图1数据新闻制作流程
6数据获取
6.1数据获取内容
2
T/CAPT008—2023
6.1.1图文数据获取
通过爬虫技术获取新闻站点、即时通讯、社交媒体平台、专业机构数据、开放数据库等平台图文
数据,采集字段见表1。
表1图文数据采集字段
字段名称选择字段数据类型描述
news_id必填字符串新闻唯一身份标识
data_source必填字符串新闻数据源
source_url必填字符串数据源的新闻统一资源定位符
publish_timestamp必填字符串新闻发布时间戳,单位为毫秒
author必填字符串作者,字符串数组
editor必填字符串编辑,字符串数组
source必填字符串新闻来源,字符串数组
site必填字符串新闻站点
domain必填字符串新闻域名
title必填字符串标题
original_content必填字符串原始新闻正文
content_text必填字符串新闻正文文本
content_image_url_li
非必填字符串新闻原始正文图片列表
st
content_image_oss_ur
非必填字符串新闻转存正文图片列表
l_list
thumbnail_image_url_
非必填字符串新闻原始缩略图列表
list
thumbnail_image_oss_
非必填字符串新闻转存缩略图列表
url_list
original_keywords非必填字符串原始新闻关键词
fetch_timestamp非必填字符串新闻抓取时间戳,单位为毫秒
6.1.2短视频数据获取
通过爬虫技术采集主流短视频平台视频数据,即时通讯、社交媒体平台等。采集字段见表2。
表2短视频数据采集字段
字段名称选择字段数据类型描述
cid非必填字符串内容唯一身份标识
title非必填字符串内容标题
url非必填字符串内容播放页地址
thumbnail非必填字符串内容封面
publish非必填字符串内容发布时间
platform非必填字符串内容发布平台
play_count必填整数内容播放数,部分平台为空
like_count必填整数内容点赞数,部分平台为空
data_update_time非必填字符串内容数据更新时间
video_duration非必填整数视频时长
media_mid非必填字符串发布账号唯一身份标识
media_name非必填字符串发布账号名称
3
T/CAPT008—2023
表2短视频数据采集字段(续)
字段名称选择字段数据类型描述
media_avatar非必填字符串发布账号头像
发布账号认证状态,“1”为认证账号,“0”为未认证账
media_is_verified非必填整数
号
6.1.3用户行为数据获取
通过用户使用行为数据获取技术,采集网站、客户端用户访问、使用数据、用户评论、用户转
发,用于后续分析、统计用户行为特点。采集字段见表3。
表3用户行为数据采集字段
类型字段名字段说明
appkey应用唯一身份标识
log_id日志唯一身份标识
ipIP地址
idfa广告标示符
imei移动设备国际身份码的缩写
imsi国际移动用户识别码
lon地理位置经纬度
lat地理位置经纬度
log_time客户端时间戳
over_time服务器时间戳
brand设备品牌
埋点SDK提
device_mode设备型号
供
scr屏幕宽度*屏幕高度
carrier网络运营商
access连接的网络,如:4G、5G、WLAN等
access_subtype网络类型,如:HSPA、EVDO、EDGE、GPRS等
lang客户端语言
os操作系统
os_version操作系统版本
channelAPP安装渠道
app_nameAPP名称
app_versionAPP版本号
sdk_versionSDK版本
item_id内容唯一身份标识
item_type内容类型,比如图文、视频、直播等
bhv_type行为类型,例如曝光、停留、点击、收藏、下载等
user_id用户唯一身份标识,已登陆用户必填
page_name页面名称,如首页、用户中心、搜索页等
用户输入module_name模块名称,如:为你推荐、热门等
action_status事件状态,“1”为点赞/收藏,“0”为取消点赞/取消收藏
share_to分享渠道,即时通讯、社交媒体平台、复制链接等
duration时长(单位秒),具体行为消耗时长,如页面浏览时长、视频播放时长等
keyword搜索关键词
error_codeAPP报错编码
4
T/CAPT008—2023
6.2数据获取技术
6.2.1数据获取系统技术架构
图2数据获取系统技术架构设计图
数据获取系统技术架构分为数据层、中间件、服务层、接口层和展现层,见图2,架构说明:
a)数据层:包含本地文件存储、分布式对象存储、关系型数据库,为数据采集系统提供结构化内容
数据以及图片、音频、视频等资源文件的存储和检索服务。
b)中间件:包含消息队列、分布式缓存、日志服务、分布式调度等服务。
5
T/CAPT008—2023
c)服务层:包含种子管理、采集服务、处理服务、推送服务等子系统,是数据采集系统核心功能
层,为整个系统提供数据抓取及分发能力。
d)接口层:包括创建种子接口、提交抓取接口、修改优先级接口、修改种子接口、重置抓取接口、
下发数据接口,为展现层提供数据展现和业务处理能力。
e)展现层:包含自动采集、主动采集、站点管理、任务管理、资源管理和热点管理等功能。
6.2.2数据获取系统业务流程
数据获取系统可获取网站的详情页内容进行数据获取,也可将网站转换为种子源进行定时任务采
集,采集后的数据会经过解析和清洗,针对纯文字部分直接入库到内容库。图片、音频、视频内容需进
行下载、上传处理后入库到内容库,然后将数据推送至汇聚内容库子系统或CMS等相关业务系统内,见
图3。
图3数据采集系统业务流程
6.3数据获取质量控制
数据质量评价指标框架见图4。
图4数据质量评价指标
数据质量评价指标的要求说明:
6
T/CAPT008—2023
a)规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
b)完整性:按照数据规则要求,数据元素被赋予数值的程度。
c)准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。
d)一致性:数据与其它特定上下文中使用的数据无矛盾的程度。
e)可靠性:数据处于客观真实的状态,真实、及时、完整、可靠。
f)时效性:数据在时间变化中的正确程度。
g)可访问性:数据能被访问的程度。
7媒资存储
7.1媒资分类
对不同来源的媒资进行分类。
7.2格式化存储
按照图片、音频、视频的格式分类存储。
7.3格式转换
根据不同的媒资用途进行相应的格式转换。
8加工制作
8.1数据内容核验
8.1.1数据备份核验
为避免数据后续处理过程中意外出现数据遗失的情况,操作前对数据进行备份。
8.1.2数据完整性核验
检查数据是否爬取完全,确定数据的完整性和可用性。如表格翻页,是否获取到所有翻页页面的相
关信息。
8.1.3字段名称核验
检查数据同一变量的字段名称是否统一。如果存在名称不统一的情况,需将表格中相关变量的名称
进行统一。
8.1.4数据处理的可重复性核验
数据处理后得到的数据结论应当具有可重复性。因此需重复数据处理操作,以确保数据处理的准确
无误。
8.1.5引用数据及研究结论溯源
除网页获取到的数据,数据新闻还会引用报告、研究中的数据。在引用之前需核查数据来源和数据
处理方式,确定数据以及结论的科学可靠。
8.2数据可视化设计要求
8.2.1设计原则
显示设备
在进行数据可视化的过程中,需要考虑阅读设备特性。阅读设备特性直接影响了数据可视化的设计
方式。具体来说,阅读设备特性宜从以下方面进行识别:
a)硬件尺寸:用户主要在移动通信终端阅读数据新闻,因此宜充分考虑主流移动通信终端屏幕尺
寸进行图文、视频以及交互作品设计。
b)屏幕分辨率:数据新闻作品的清晰呈现宜考虑移动端屏幕分辨率。
7
定制服务
推荐标准
- T/SCQA 214-2021 灌芯装配式混凝土剪力墙结构技术规程 2022-02-14
- T/CECS 10121-2021 球墨铸铁聚乙烯复合管 2021-01-29
- T/CECS 10014-2019 建筑给水用纳米抗菌不锈钢塑料复合管材与管件 2019-05-06
- T/CCMSA 10107-2019 平滑自动门机组 2019-09-18
- T/DFLX 002-2021 东丰县梅花鹿标准化养殖场建设标准 2021-06-07
- T/SDCEAS 10002-2021 竖丝岩棉复合板外墙保温体系应用技术标准 2021-08-12
- T/CECS 605-2019 矩形钢管构件自锁式单向高强螺栓连接设计标准 2019-07-08
- T/QGCML 862-2023 钢结构超声检测分析系统技术规程 2023-06-03
- T/CECS 520-2018 医用整体地坪系统技术规程 2018-05-11
- T/CECS 698-2020 室内PM2.5检测设备性能检验标准 2020-05-25