T/CAIACN 009-2023 低延迟低复杂度高清音频编解码技术规范

T/CAIACN 009-2023 Low-Latency, Low-Complexity High-Definition Audio Codec Specification

团体标准 中文(简体) 现行 页数:41页 | 格式:PDF

基本信息

标准号
T/CAIACN 009-2023
标准类型
团体标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2023-09-19
实施日期
2023-09-19
发布单位/组织
-
归口单位
中国电子音响行业协会
适用范围
范围:本文件规定了低延迟低复杂度高清音频编解码技术标准音频编码的位流表示方式及解码过程。 本文件适用于无线音频、实时音视频、网络流媒体、网络电视、虚拟现实和增强现实、监控系统等领域; 主要技术内容:本文件规定了低延迟低复杂度高清音频编解码技术标准音频编码的位流表示方式及解码过程

发布历史

研制信息

起草单位:
中国电子技术标准化研究院、华为终端有限公司、北京百瑞互联技术有限公司、荣耀终端有限公司、国光电器股份有限公司、东莞市漫步者科技有限公司、歌尔股份有限公司、广州汽车集团股份有限公司汽车工程研究院、北京瑞森新谱科技股份有限公司、深圳市百泰实业股份有限公司、华为技术有限公司、中兴通讯股份有限公司、深圳东原电子有限公司、珠海市杰理科技股份有限公司、广州飞傲电子科技有限公司、广州由我科技股份有限公司、上海海思技术有限公司、炬芯科技股份有限公司、海信视像科技股份有限公司、深圳TCL新技术有限公司、深圳市云动创想科技有限公司、深圳市冠旭电子股份有限公司、歌尔丹拿科技有限公司、瀛通通讯股份有限公司、汉桑(南京)科技股份有限公司、北京中科晶上科技股份有限公司、北京淳中科技股份有限公司、北京声智科技有限公司、北京中兴高达通信技术有限公司、浙江华创视讯科技有限公司、广州市天谱电器有限公司、深圳市美格信测控技术有限公司、恒玄科技(上海)股份有限公司、苏州奇梦者科技有限公司、深圳市谙声科技有限公司、广州视琨电子科技有限公司、夏芯微电子(上海)有限公司、珠海斯巴克电子设备有限公司、上海市浦东新区先进音视频技术协会
起草人:
董桂官、范泛、王卓、李强、吴术霞、谢守华、曾泽雄、赵燕鹏、张海宏、时瑞浩、刘宇杰、贾德双、靳海兵、龚建、刘斌、桑耀、王祝伦、赖少兵、吴东升、赵新中、王之奎、邓子敬、支周、曾德钧、彭久高、杨健斌、涂长青、颜勇进、万建超、宋良多、陈孝良、卓安生、洪传荣、方建军、温文清、王欢良、谢裕明、李勤、杨丰林、叶茂盛、姚赟、李婧欣、朱博成、提纯利、夏丙寅、李佳蔚、朱梦尧、李静雅、韦家毅、张晓风、麦睿楷、王良、张健、涂建平、向攀、苏炯金、邓庆、赵清、张达、孙坤茂、谷晓军、索亚运、张盛伟、黄坤朋、李兰强、衣传君、肖枫、贺洪江、李太华、王轩玥、郑广昌、黄有富、魏国华、哈海学、黄海涛、减柏锐、冯楠、何芊、郑喆、邓海洋、李斌、陈益军、包占京、陆俊霖、郑越、潘影波、常乐、李良斌、陈伟东、王剑光、叶金生
出版信息:
页数:41页 | 字数:- | 开本: -

内容描述

ICS33.160.30

CCSM72

团体标准

T/CAIACN009-2023

低延迟低复杂度高清音频

编解码技术规范

LowLatencyLowComplexityHighResolutionAudio

CodecTechnologySpecification

2023-09-19发布2023-12-19实施

发布

T/CAIACN009—2023

目次

前言...............................................................................III

1范围.................................................................................1

2规范性引用文件.......................................................................1

3术语和定义...........................................................................1

3.1编码coding.....................................................................1

3.2解码decoding...................................................................1

3.3编码位流codedbitstream........................................................1

3.4边信息sideinformation.........................................................2

3.5声道channel....................................................................2

3.6双声道立体声stereoaudio.......................................................2

4缩略语...............................................................................2

5约定.................................................................................2

5.1概述.............................................................................2

5.2算数运算符.......................................................................2

5.3逻辑运算符.......................................................................3

5.4关系运算符.......................................................................3

5.5位运算符.........................................................................4

5.6赋值运算符.......................................................................4

5.7助记符...........................................................................4

5.8位流语法规则.....................................................................4

6L2HC音频编解码.......................................................................7

6.1概述.............................................................................7

6.2L2HC编解码器框架.................................................................7

6.3L2HC位流数据....................................................................10

6.4边信息解码......................................................................15

6.5频域噪声整形参数获取............................................................19

6.6MDCT系数熵解码..................................................................22

6.7残余解码........................................................................24

6.8MDCT系数逆量化..................................................................26

6.9立体声上混......................................................................27

6.10逆时频变换.....................................................................27

6.11位流格式.......................................................................27

6.12输入/输出位深处理方法..........................................................29

附录A(规范性)音频编码表...........................................................30

I

T/CAIACN009—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出

的规定起草。

中国电子音响行业协会(CHINAAUDIOINDUSTRYASSOCIATION)自1983年成立以来就以“服务企

业,献策政府”为宗旨。是我国最早成立的跨地区、跨部门、跨系统,具有社团法人资格的国家一级行

业协会之一。

组织开展电子音响领域国际、国内标准化活动,制定中国电子音响行业协会团体标准(以下简称:

中音协团标),满足行业需要,推动行业标准化工作,是中国电子音响行业协会的重要工作。协会的所

有会员,均有权利提出制、修订中音协团标的建议并参与有关工作。

中音协团标按《中国电子音响行业协会团体标准建设管理办法》进行制定和管理。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

在本标准实施过程中,如发现需要修改或补充之处,请将意见和有关资料报送中国电子音响行业协

会,以便修订时参考。

本文件由中国电子技术标准化研究院提出。

本文件由中国电子音响行业协会和国际星闪无线短距通信联盟共同归口。

本文件由中国电子音响行业协会与国际星闪无线短距通信联盟共同发起成立的“无线音频编解码”

联合工作组制定。

本文件主要起草单位:中国电子技术标准化研究院、华为终端有限公司、北京百瑞互联技术有限公

司、荣耀终端有限公司、国光电器股份有限公司、东莞市漫步者科技有限公司、歌尔股份有限公司、广

州汽车集团股份有限公司汽车工程研究院、北京瑞森新谱科技股份有限公司、深圳市百泰实业股份有限

公司、华为技术有限公司、中兴通讯股份有限公司、深圳东原电子有限公司、珠海市杰理科技股份有限

公司、广州飞傲电子科技有限公司、广州由我科技股份有限公司、上海海思技术有限公司、炬芯科技股

份有限公司、海信视像科技股份有限公司、深圳TCL新技术有限公司、深圳市云动创想科技有限公司、

深圳市冠旭电子股份有限公司、歌尔丹拿科技有限公司、瀛通通讯股份有限公司、汉桑(南京)科技股

份有限公司、北京中科晶上科技股份有限公司、北京淳中科技股份有限公司、北京声智科技有限公司、

北京中兴高达通信技术有限公司、浙江华创视讯科技有限公司、广州市天谱电器有限公司、深圳市美格

信测控技术有限公司、恒玄科技(上海)股份有限公司、苏州奇梦者科技有限公司、深圳市谙声科技有

限公司、广州视琨电子科技有限公司、夏芯微电子(上海)有限公司、珠海斯巴克电子设备有限公司、

上海市浦东新区先进音视频技术协会。

本文件主要起草人:董桂官、范泛、王卓、李强、吴术霞、谢守华、曾泽雄、赵燕鹏、张海宏、时

瑞浩、刘宇杰、贾德双、靳海兵、龚建、刘斌、桑耀、王祝伦、赖少兵、吴东升、赵新中、王之奎、邓

子敬、支周、曾德钧、彭久高、杨健斌、涂长青、颜勇进、万建超、宋良多、陈孝良、卓安生、洪传荣、

方建军、温文清、王欢良、谢裕明、李勤、杨丰林、叶茂盛、姚赟、李婧欣、朱博成、提纯利、夏丙寅、

李佳蔚、朱梦尧、李静雅、韦家毅、张晓风、麦睿楷、王良、张健、涂建平、向攀、苏炯金、邓庆、赵

清、张达、孙坤茂、谷晓军、索亚运、张盛伟、黄坤朋、李兰强、衣传君、肖枫、贺洪江、李太华、王

轩玥、郑广昌、黄有富、魏国华、哈海学、黄海涛、减柏锐、冯楠、何芊、郑喆、邓海洋、李斌、陈益

军、包占京、陆俊霖、郑越、潘影波、常乐、李良斌、陈伟东、王剑光、叶金生。

本文件主要验证人员:范泛、王卓、朱梦尧、夏丙寅、李佳蔚、赵清。

本文件为首次制定。

III

T/CAIACN009—2023

低延迟低复杂度高清音频编解码技术规范

1范围

本文件规定了低延迟低复杂度高清音频编解码技术标准音频编码的位流表示方式及解码过程。

本文件适用于无线音频、实时音视频、网络流媒体、网络电视、虚拟现实和增强现实、监控系统等

领域。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T9002-2017音频、视频和视听设备及系统词汇

GB/T5271.1信息技术词汇第1部分:基本术语(GB/T5271.1-2000eqvISO/IEC2382-1:

1993)

GB/T5271.4信息技术词汇第4部分:数据的组织(GB/T5271.4-2000eqvISO/IEC2382-4:

1987)

GB/T5271.9信息技术词汇第9部分:数据通信(GB/T5271.9-2001eqvISO/IEC2382-9:

1995)

3术语和定义

GB/T9002-2017、GB/T5271.1、GB/T5271.4和GB/T5271.9界定的以及下列术语和定义适用于

本文件。

3.1

编码coding

读入音频采样值,并产生一个符合本文件的有效位流。

3.2

解码decoding

在本文件中定义的一种数据处理,即读入编码位流并输出音频采样值的过程。

3.3

编码位流codedbitstream

音频信号的编码表示。

1

T/CAIACN009—2023

3.4

边信息sideinformation

位流中控制解码的必要信息。

3.5

声道channel

用于传送到单个扬声器或其他重放设备的一组有序音频样本集合。

3.6

双声道立体声stereoaudio

一种音频格式,该格式下,使用两个声道承载有一定相位关系的音频信号,通常通过位于听音者前

方的两个对称的扬声器或使用耳机重放,带给听音者更宽的声场感觉。

3.7

前向附加时延lookahead

编码器在编码当前帧时需要输入的未来数据长度。

4缩略语

下列缩略语适用于本文件。

MDCT改进离散余弦变换ModifiedDiscreteCosineTransform

L2HC低延迟低复杂度高清音频编解码LowlatencyLowcomplexityHighresolutionaudio

Codec

CBR恒定比特流ConstantBitRate

5约定

5.1概述

本文件中使用的数学运算符和优先级与C语言使用的类似,但对整型除法和算术移位操作进行了

特定的定义。除特别说明外,约定编号和计数从0开始。

5.2算数运算符

算术运算符定义见表1。

表1算术运算符定义

算术运算符定义

+加法运算

-减法运算(二元运算符)或取反(一元前缀运算符)

÷除法运算,不做截断或四舍五入

2

T/CAIACN009—2023

表1算术运算符定义(续)

算术运算符定义

乘法运算

*乘法运算

ab幂运算,表示a的b次幂。也可表示上标

pow(a,b)幂运算,表示a的b次幂

/除法运算,不做截断或四舍五入

𝑎

除法运算,不做截断或四舍五入

𝑏

b

fi()自变量i取由a到b(含b)的所有整数值时,函数f(i)的累加和

ia

⌊·⌋下取整

√𝑎a的算术平方根

‖·‖22-范数

||1-范数

5.3逻辑运算符

逻辑运算符定义见表2。

表2逻辑运算符定义

逻辑运算符定义

||逻辑或

&&逻辑与

!逻辑非

5.4关系运算符

关系运算符定义见表3。

表3关系运算符定义

关系运算符定义

>大于

大于或等于

<小于

小于或等于

==等于

不等于

3

T/CAIACN009—2023

5.5位运算符

位运算符定义见表4。

表4位运算符定义

位运算符定义

&与运算

|或运算

~取反运算

将以2的补码形式表示的整数a向右移b位。仅当b取正数时定义此运算。向右移至最高有效位时,

a>>b

其值与a移位运算前的最高有效位相等

将以2的补码形式表示的整数a向左移b位。仅当b取正数时定义此运算。向左移至最低有效位时,

a<<b

其值等于0

5.6赋值运算符

赋值运算符定义见表5。

表5赋值运算符定义

赋值运算定义

=赋值运算符

++自加,x++相当于x=x+1。当用于数组下标时,在自加运算前先求变量值

+=自加指定值,例如,x+=3相当于x=x+3,x+=(-3)相当于x=x+(-3)

-=自减指定值,例如,x-=3相当于x=x+(-3),x-=(-3)相当于x=x–(-3)

5.7助记符

助记符定义见表6。

表6助记符定义

助记符定义

rpchof多项式余数,高阶在先

位串,左位在前。位串是带单引号的1和0串。如‘10000001’。位串内的空格是便于阅读的,无

bslbf

特殊意义。(bitstreamleftbitfirst)

uimsbf无符号整数,最高有效位优先。(unsignedinteger,mostsignificantbitfirst)

位串,带单引号的1和0串,右位在前,如先编码一个5bit的数值6,然后编码一个3bit的数值2,

bsmbf

那么编码位串为‘01000110’

5.8位流语法规则

位流中的每一个数据项用粗体字,通过名字、按位的长度及其类型和传输顺序的助记符来描述。

位流中被解码的数据元素所导致的操作依赖于该数据的值及以前解码的数据元素。如无特殊说明,

本文件中的“位”指二进制位。

4

T/CAIACN009—2023

本文件语法用“C”代码规定,变量或表达式为非零值时等价于条件为真,变量或表达式为零值时

等价于条件为非真。

本文语法中加粗的数据元素(如“data_element”等)表示将位流中对应长度的数据信息读取到加

粗的“数据元素”中。

while(condition){

data_element

}

若条件为真,则数据元素组紧接着数据流产生,如此重复直到条件为非真。

do{

data_element

}while(condition)

数据元素组紧接着数据流产生,如此重复直到条件为非真。

if(condition){

data_element

}else{

data_element

}

若条件为真,在数据流中产生第一组数据元素,若条件为非真,在数据流中产生第二组数据元素。

for(expr1;expr2;expr3){

data_element

}

expr1是指定循环初始状态表达式,通常它指定了计数器的初始状态;expr2是指定的每次循环前的

测试条件,条件为非真时循环终止;expr3是每次循环结束时执行的表达式,一般是增加计数器。

最通常用法为:

for(i=0;i<n;i++){

data_element

}

数据元素组产生n次。数据元素组内的条件结构可能依赖循环控制变量i的值。第一次出现时被置

为‘0’,第二次增加到‘1’,如此往复。

根据表达式expr的值,产生对应的数据元素。expr的值为constcase1时产生数据元素

data_element1,expr的值为constcase2时产生数据元素data_element2,以此类推,expr的值为

constcasen时产生数据元素data_elementn。当expr的值不等于constcase1,constcase2,…,

constcasen中的任何一个值时,产生数据元素data_elementdefault。

5

T/CAIACN009—2023

switch(expr){

caseconstcase1:

data_element1

break

caseconstcase2:

data_element2

break

caseconstcasen:

data_elementn

break

default:

data_elementdefault

break

}

本结构的一类变体是在case后不出现break,expr的值constcasex时,从对应的caseconstcasex

开始产生数据元素,直到break出现。expr的值为constcase1时产生数据元素data_element1和

data_element2,expr的值为constcasen时产生数据元素data_elementn。

switch(expr){

caseconstcase1:

data_element1

caseconstcase2:

data_element2

break

caseconstcasen:

data_elementn

break

default:

data_elementdefault

break

}

数据元素组中可能含有嵌套结构。为简便起见,当后面只有一个数据元素时“[]”省略。数据元素

组表示方法如下:

data_element[]:一数组数据,数据元素的个数由上下文而定。

data_element[n]:数组数据的第n+1个元素。

data_element[m][n]:二维数组的第m+1,n+1个元素。

data_element[l][m][n]:三维数组的第l+1,m+1,n+1个元素。

data_element[m…n]:位m到位n之间包括的位。

6

T/CAIACN009—2023

6L2HC音频编解码

6.1概述

本文件规定了面向低延迟、低复杂度、高保真的基于MDCT(ModifiedDiscreteCosineTransform)

实现的频域音频编解码器,L2HC(LowlatencyLowcomplexityHighresolutionaudioCodec)。

L2HC编解码器包括单声道编解码、立体声(双声道)编解码。L2HC支持单声道、立体声音频编解

码,编码模式为CBR(ConstantBitRate)模式,单声道编码码率范围为64kbps到960kbps,立体声编

码码率范围为128kbps到1920kbps。在码率支持的范围内,编码码率可以在编码端任意设置,最小步

长变化为1kbps。输入/输出的音频信号采样率支持44.1kHz、48kHz、88.2kHz和96kHz。位深支持16

位定点,24位定点和32位定点/浮点,编码器和解码器位深可以不同。

L2HC编解码器支持10ms标准帧长模式和5ms短帧长模式。标准帧长模式下,在48kHz和96kHz采

样率下的算法时延为12.5ms,其中帧长为10ms,前向附加时延(lookahead)为2.5ms,采样率48kHz

和96kHz对应的帧内采样点数分别为480点和960点;在44.1kHz和88.2kHz采样率下的算法时延为

13.6ms,其中帧长为10.88ms,前向附加时延为2.72ms,采样率44.1kHz和88.2kHz对应的帧内采样点

数分别为480点和960点。短帧长模式下,在48kHz和96kHz采样率下的算法时延为7.5ms,其中帧长

为5ms,前向附加时延为2.5ms,采样率48kHz和96kHz对应的帧内采样点数分别为240点和480点;

在44.1kHz和88.2kHz采样率下的算法时延为8.16ms,其中帧长为5.44ms,前向附加时延为2.72ms,

采样率44.1kHz和88.2kHz对应的帧内采样点数分别为240点和480点。

L2HC编解码器在解码端需要配置的参数包括:解码信号位深和解码模式。在处理立体声信号时,

L2HC支持3种解码模式,分别为左声道输出,右声道输出和立体声输出。

6.2节介绍L2HC编解码器框架,6.3节介绍L2HC位流数据格式,6.4节描述边信息解码流程,6.5

节描述频域噪声整形参数的获取方法,6.6节描述MDCT系数的熵解码方法,6.7节描述残余解码方法,

6.8节描述MDCT系数的逆量化方法,6.9节描述立体声信号的上混方法,6.10节描述逆时频变换方法,

6.11节介绍L2HC位流格式,6.12节介绍L2HC信号输入/输出位深处理方法。附录A包含子带包络划

分表、Huffman码表等。

6.2L2HC编解码器框架

L2HC音频编码器框架如图1所示,L2HC音频编码器可分为时频变换、信号自适应分析、立体声下

混、子带包络参数获取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码和残余编码等模块。

7

T/CAIACN009—2023

图1L2HC音频编码器框架

L2HC音频解码器框架如图2所示,L2HC音频解码器可分为边信息解码、频域噪声整形参数获取、

熵解码、残余解码、MDCT系数逆量化、立体声上混和逆时频变换。

图2L2HC音频解码器框架

8

T/CAIACN009—2023

以下分别对输入信号为单声道和立体声的情况进行介绍。

6.2.1L2HC单声道编码

L2HC在编码单声道信号时,信号需经过时频变换、信号自适应分析、子带包络参数获取与编码、频

域噪声整形参数获取、MDCT系数量化、熵编码和残余编码等模块处理。下面对各模块功能进行简要介

绍。

6.2.1.1时频变换

时频变换模块对输入的时域信号加窗并进行MDCT变换。

6.2.1.2信号自适应分析

对输入信号进行带宽检测,结合码率确定子带划分情况,输出边信息包括:需要编码的子带个数

bandNum、子带划分方式索引sfId、低码率标识符lowBrFlag等,并写入位流。

6.2.1.3子带包络获取与编码

根据子带划分情况计算各个子带的包络信息并进行编码。编码对象可以是子带包络参数或子带包

络参数的差分值。

6.2.1.4频域噪声整形参数获取

利用子带包络和子带间掩蔽关系计算频域噪声整形参数,包括心理声学谱包络参数

psyScalefactor和量化等级参数quantScale。

6.2.1.5MDCT系数量化

利用心理声学谱包络参数psyScalefactor求得子带的噪声基底noisefloor,对各子带的MDCT系

数进行量化。其中,量化精度数值上等于噪声基底noisefloor。

6.2.1.6熵编码

对量化后的单声道信号的MDCT系数进行熵编码,并写入位流。

6.2.1.7残余编码

利用剩余比特进行残余编码,提升MDCT系数的编码精度,相关信息写入位流。

6.2.2L2HC单声道解码

L2HC在解码单声道信号时,位流需经过边信息解码、频域噪声整形参数获取、熵解码、残余解码、

MDCT系数逆量化和逆时频变换,最终获得解码单声道信号。下面对各模块功能进行简要介绍。

6.2.2.1边信息解码

从位流中获取与边信息相关的位流信息,进行解码得到低码率标识符lowBrFlag、心理声学谱包络

系数动态调节因子dr、辅助调节因子drQuater、子带划分方式索引sfId、编码子带个数bandNum、子

带包络差分编码开启标志diffFlag、子带包络参数和Huffman解码码表索引等。

9

T/CAIACN009—2023

6.2.2.2频域噪声整形参数获取

利用解码获取的子带包络信息和子带间掩蔽关系得到各子带的频域噪声整形因子dradjust。结合心理

声学谱包络系数动态调节因子dr和辅助调节因子drQuater求得频域噪声整形参数,包括心理声学谱

包络参数psyScalefactor和量化等级参数quantScale。

6.2.2.3熵解码

从位流中获取与MDCT系数编码相关的位流信息,结合Huffman码表进行熵解码得到量化后的MDCT

系数。

6.2.2.4残余解码

从位流中获取残余编码相关的位流信息,进行残余解码。

6.2.2.5MDCT系数逆量化

MDCT系数逆量化模块是由心理声学谱包络参数psyScalefactor获取噪声基底noisefloor。然后

利用noisefloor参数对量化的MDCT系数进行逆量化得到解码的MDCT系数。

6.2.2.6逆时频变换

逆时频变换模块将MDCT系数变换到时域,并进行加窗和叠接相加操作,得到解码的时域音频信号。

6.2.3L2HC立体声编码

L2HC在编码立体声信号时,信号需经过时频变换、信号自适应分析、立体声下混、子带包络参数获

取与编码、频域噪声整形参数获取、MDCT系数量化、熵编码和残余编码等模块处理。

与L2HC单声道编码相比增加了立体声下混模块,立体声下混模块根据立体声信号特征对左右声道

MDCT系数进行M/S下混,以去除信号间冗余信息,提升编码效率。

6.2.4L2HC立体声信号解码

L2HC在解码立体声信号时,位流需经过边信息解码、频域噪声整形参数获取、熵解码、残余解码、

MDCT系数逆量化、M/S上混和逆时频变换等模块处理,最终获得解码立体声信号。

与L2HC单声道解码流程相比,立体声解码增加了立体声上混模块,立体声上混模块是编码端立体

声下混的逆过程,对解码所得下混声道的MDCT系数进行M/S上混,得到立体声的MDCT系数。

6.3L2HC位流数据

6.3.1语法

L2HC位流数据语法见表7。

表7L2hcDecodeRawData()语法

L2hcDecodeRawData()语法比特数助记符

L2hcDecodeRawData(){——

L2hcHeaderUnpack()——

switch(codecFormat){——

case0x0:L2hcCommonDec(chNumDec=chNum)——

10

T/CAIACN009—2023

定制服务

    相似标准推荐

    更多>