DB35/T 1979-2021 智慧家庭人工智能语音服务通用技术规范
DB35/T 1979-2021 Smart Home Artificial Intelligence Voice Service Generic Technology Specification
基本信息
发布历史
-
2021年06月
研制信息
- 起草单位:
- 中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网络通信有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、新大陆通信科技股份有限公司、福建福日电子股份有限公司。
- 起草人:
- 章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。
- 出版信息:
- 页数:19页 | 字数:- | 开本: -
内容描述
ICS35.240.01
CCSL77
35
福建省地方标准
DB35/T1979—2021
智慧家庭人工智能语音服务通用技术规范
Generaltechnicalspecificationforartificialintelligencevoiceserviceofsmarthome
2021-06-21发布2021-09-21实施
福建省市场监督管理局发布
DB35/T1979—2021
目次
前言.................................................................................II
1范围...............................................................................1
2规范性引用文件.....................................................................1
3术语和定义.........................................................................1
4缩略语.............................................................................2
5语音服务的组成及能力等级划分.......................................................3
6环境要求...........................................................................3
7基本要求...........................................................................4
8测试方法..........................................................................10
附录A(规范性)语音测试集录音质量要求..............................................15
附录B(规范性)测试用设备要求......................................................16
I
DB35/T1979—2021
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由福建省工业和信息化厅提出并归口。
本文件起草单位:中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技
术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网络通信
有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、
新大陆通信科技股份有限公司、福建福日电子股份有限公司。
本文件主要起草人:章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、
李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。
II
DB35/T1979—2021
智慧家庭人工智能语音服务通用技术规范
1范围
本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试方法。
本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB3096—2008声环境质量标准
GB/T21023—2007中文语音识别系统通用技术规范
GB/T21024—2007中文语音合成系统通用技术规范
GB/T22239—2019信息安全技术网络安全等级保护基本要求
GB/T36464.1—2020信息技术智能语音交互系统第1部分:通用规范
GB/T36464.2—2018信息技术智能语音交互系统第2部分:智能家居
3术语和定义
GB/T21023—2007、GB/T21024—2007、GB/T36464.1—2020、GB/T36464.2—2018界定的以及下
列术语和定义适用于本文件。
语音服务voiceservice
人机之间通过自然语言对话来获取信息的服务。
语音采集voiceacquisition
通过传声器或麦克风阵列等拾音设备对语音进行采集。
语音识别speechrecognition
将人类的声音信号转化为文字或指令的过程。
[来源:GB/T21023—2007,3.1]
语义理解semanticunderstanding
使功能单元理解人说话的意图。
[来源:GB/T36464.1—2020,3.11]
1
DB35/T1979—2021
语音合成speechsynthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T21024—2007,3.1]
端点检测voiceactivitydetection
一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。
[来源:GB/T36464.1—2020,3.22]
智能语音终端artificialintelligencevoiceterminal
可接收用户的语音,使得用户可以获取在线音视频等内容,或可通过语音进行控制的设备。
噪声noise
语音采集过程中,采集到的由非有效语音信源发出的,能干扰、影响对有效语音信号的理解或处理
的声音信号。
[来源:GB/T36464.1—2020,3.27]
等效声级equivalentcontinuousA-weightedsoundpressurelevel
在声场中的某个位置上,用某一段时间内能量平均的方法,将间歇暴露的几个不同噪声,用这样一
个声级来表示该段时间的噪声大小。
平均意见得分meanopinionscore
语音质量的一种主观度量。
[来源:GB/T36464.2—2018,3.26]
语音唤醒speechwakeup;voicetrigger
处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令词识别、连
续语音识别等其他处理状态的过程。
[来源:GB/T36464.2—2018,3.13]
媒资mediaassets
媒体单位生产的文字、图片、音视频等数据。
媒资库mediapool
存储媒资的数据库。
4缩略语
下列缩略语适用于本文件。
PCM:脉冲编码调制(PulseCodeModulation)
MOS:平均意见得分(MeanOpinionScore)
2
DB35/T1979—2021
5语音服务的组成及能力等级划分
语音服务的组成
由语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。
语音服务能力等级划分
语音服务能力根据成熟度划分为五个等级,见表1。
表1语音服务能力等级
主体
语音服务能力等级定义
语音采集与识别语义理解语音合成与播放语音技能
上下文及多场景语
语义深度理解与智
Level5义理解与智能终端智能翻译多级互动
能互动
控制
语义理解与语音互端点检测应用唤醒、栏目唤
Level4语义理解
动自然合成(多语种、起、内容搜索
语音深度识别与自多发音人)
Level3——
然合成
语音识别与机器合
Level2语音识别—机器合成—
成
Level1语音采集与播放语音采集—语音播放—
6环境要求
自然环境
智能语音终端主要在家庭环境下使用,在表2所示自然环境条件下应正常工作。
表2自然环境要求
温度大气压力
相对湿度
℃KPa
0~4010%~90%无凝结86~106
网络环境
智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网,网络接入速度应不低于
128kbit/s。
噪声环境
智能语音终端主要在家庭环境下使用,家庭噪声环境具体要求按照GB3096—2008第4章中0、1、2
类声环境功能区的规定执行。
3
DB35/T1979—2021
7基本要求
语音采集与识别
7.1.1语音采集
人工智能语音服务使用智能语音终端进行语音采集,应能通过传声器或麦克风阵列等具备语音采集
能力的拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求:
a)支持8kHz或16kHz采样率,16bit及以上的采样精度;
b)音频文件编码支持PCM或Opus或Speex格式;
c)对于连续性音频,支持30s或60s为时间单位进行切片分割。
注:Opus是有损音频的一种编码格式;Speex是一套针对语音音频的压缩格式。
7.1.2端点检测
人工智能语音服务在进行语音采集时,应对采集的音频进行端点检测,以区分用户说话的自然停顿
和主观停止。
7.1.3语音识别
应满足以下要求:
a)支持家庭场景下关键词语音识别能力,如影视、音乐、医疗、教育等;
b)支持简单中英文混合识别;
c)支持数字、电话号码;
d)支持普通话、带有福建口音的普通话;
e)宜支持福建省内主流方言,如闽南语、客家语;
f)语音识别句识别率应满足表3要求。
定制服务
推荐标准
- DB45/T 1915-2018 进口毛燕加工企业生产管理规范 2018-12-20
- DB45/T 1914-2018 降真香鉴定方法 2018-12-20
- DB45/T 1912-2018 电子电器企业废弃物分类、贮存和处理技术规范 2018-12-20
- DB45/T 1916-2018 马蹄(荸荠)淀粉颗粒显微鉴定方法 2018-12-20
- DB45/T 1908-2018 地理标志产品 那里鱼养殖技术规范 2018-12-20
- DB45/T 1913-2018 六堡茶斗茶规范 2018-12-20
- DB45/T 1911-2018 地理标志产品 隆林板栗 2018-12-20
- DB45/T 1909-2018 地理标志产品 德保山楂 2018-12-20
- DB45/T 1910-2018 地理标志产品 石塘生姜 2018-12-20
- DB45/T 1907-2018 地理标志产品 那林鱼 2018-12-20