第三章-数字音频处理
一、音频的概念和特性
1.1 声音的产生
声音是通过一定介质(如空气、水等)传播的一种连续振动的波。
声音必须通过空气或其他的媒质进行传播,形成声波,因此声音具有波形的基本属性,可以用波形图来表示。
1.2 声音的特性
频率,振幅,周期——物理学上描述
音调,响度,音色——生理学上描述
::: theorem 傅里叶定律
在有限频谱内,无论多么复杂的波形,都是由非常多的不同频率振幅的正弦波叠加而成。
:::
声波的频率就是声源振动的频率,即每秒钟内来回往复振动的次数。
频率的单位通常用Hz(赫兹)来表示,简称赫。一般来说,物体振动越快,频率就越高,人感受到的音调也就越高,反之亦然。
声波的频率对人耳的听觉感受影响很明显。按照声波的频率不同,声音可以分为次声波、超声波、人耳可听声三种。
次声波:频率低于20Hz,叫做次声波。
超声波:高于20kHz之间,叫做超声波。
人耳可听声:频率在20Hz到20kHz之间,叫做人耳可听声。
指的是发声物体在振动时偏离中心位置的幅度,代表发声物体振动时的动能、势能的大小。它是由物体振动时产生声音的能量(声能)或声波压力(声压)大小所决定的。
声能或声压越大,引起人耳主观感觉到的响度也也越大。
分贝(decibel):指声音的振幅,即声音的响度,是振幅的量度单位。
分贝的定义:声源功率与基准声功率比值的对数乘以10的数值.
::: center
分贝值(dB)=10*lg(声源功率/基准声功率)
:::
零分贝的设定,是根据听力正常的年轻人所能听到的最小声音所得到
的。每增加10分贝等于强度增加10倍,增加20分贝增加100倍,30分贝则增加1000倍。
相对于0分贝的,一般的耳语大约是20分贝,极安静的住宅区40分贝,
一般公共场所50分贝,交谈约60分贝,交通繁忙地区85分贝,飞机场
跑道120分贝
一个声波完成一次振动所需要的时间称为周期,用符号T表示,单
位通常为秒(s)。周期与频率是互为倒数关系.
声波的波长是指声波在一个周期的时间内传播的距离。
语音中的低频部分,由于其波长较长,能向各个方向均匀地传播。
语音中的高频部分仅向前直射。
声波遇到障碍物时存在衍射现象。
声波的心理特征是指声波在人耳中的感受,是指声波在人耳中的感受。
(1)音量(也称响度):人耳对声音强弱的主观感觉称为响度。——与声波的振幅有关
(2)音调:人耳对声音高低的感觉称为音调。——与声波的频率有关
(3)音色:音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。——与声波的频谱结构有关。音色所涉及的声音特性包括圆润度、饱满度、清晰度、共鸣效果等。这些特性的不同使我们能够区别各种声音.
二、音频处理设备
有源音箱:又称为“主动式音箱”,其扬声器箱体内已经内置有功率放大器,用户不必考虑它与放大器匹配的问题。
无源音箱:又称为“被动式音箱”,需要连接功放才能使用。
耳机的分类:
开放式耳机:外壳是开放的,耳机质量轻,声音自然,无压迫感。
外界声音不会完全隔绝,佩带舒适,但声音有外泄。
半开放式耳机:耳机的开放与频率或方向相关,即只对某些频率开放,或是在一定方向上是开放的。
封闭式耳机:耳机的外壳是封闭的,通过软音垫包裹,外界声音隔绝,声音几乎无外泄,长时间佩带有不适感,在专业监听中使用较多。
麦克风的分类:
电动式麦克风:利用磁场中的导体产生电动势而工作。中频特性好,抗震强,多用于卡拉OK。但是灵敏度低,频响不够宽。
电容式麦克风:应用静电感应原理,靠声波振动来使电容一端移动,造成电容两极间距离变化,从而产生电压差,形成声音的电信号。灵敏度高,频响范围宽,音质好。对环境要求高,受潮或长时间受热会不稳定。
MIDI键盘:(Music Instrument Digital Interface)键盘外观上与电子琴很相似,本身不能发声,一般与电脑相连接使用。
调音台:调音台又称调音控制台,它将多路输入信号进行放大、混合、分配、音质修饰和音响效果加工,具有电平控制、音色调整、音质均衡与补偿的功能。它负责计算机与话筒、音箱、音源和合成器等音频设备之间声音信号的传递,拥有各种辅助输出、监听输出、左右立体声输出和混合输出等输出方式,因此它在音频系统中占有核心地位,是音频制作与编辑、信号处理的中心。
三、音频数字化
3.1 模拟音频
通过各种拾音器,如话筒,将物体振动所产生的声音录制下来,存储在磁带、磁盘等电磁存储介质上,这种声音是以电信号存在的,称为模拟音频。模拟音频技术中以模拟电压的幅度表示声音强弱,模拟声音在时间上是连续的;
3.2 数字音频
通过计算机设备及相关音频软件将模拟音频转换为计算机可以识别的以二进制存在的声音信号,就形成了数字音频。而数字音频是一个数据序列,在时间上是断续的。
3.3 音频数字化
数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。
采样:在时间轴上对信号数字化;
量化:在幅度轴上对信号数字化;
编码:按一定格式记录采样和量化后的数字数据。
首先我们考虑声音经过麦克风,转换成一连串电压变化的信号,
如下图所示。这张图的横座标为秒,纵座标为电压大小。对连
续信号按一定的时间间隔在模拟声波上截取一个振幅值。
我们把分割线与信号图形交叉处的座标位置记录下来,可以得
到如下资料,(0.01,11.65) (0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) …(0.18,15.94) 、 (0.19 ,17.7) (0.20,20) 。我们现在已经把这个
波形以数字记录下来了。由于我们已经知道时间间隔是固定的 0.01 秒,因此我们只要把纵座标记录下来就可以了,得到的结果是 11.65 14.00 16.00 …… 这一数列。这一串数字就是将以上信号数字化的结果。
采样:
每间隔一个时间段采集一次声音信号的幅度样本的过程。
采样频率:指每秒钟所采集的声波幅度样本的次数。(单位是Hz)采样频率越高,声音的保真度就越高,但用于存储音频的数据量也越大。
::: theorem 奈奎斯特定理
在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时,即:fs.max>=2fmax,则采样之后的数字信号完整地保留了原始信号中的信息。
:::
常用采样率
➢ 11,025 Hz AM 广播质量 可用于长的音乐,高质量的语音,音效
➢ 22,050 Hz FM 广播质量 可用于短的高质量音乐
➢ 32,000 Hz 接近CD 质量 可用于专业或业余数字产品
➢ 44,100 Hz CD 质量 可用于高保真声音和音乐
➢ 48,000 Hz 数字音频磁带音质(DAT 质量)
➢ 96,000 Hz DVD 质量
➢ 192000Hz DVD 质量
量化:
就是把采样得到的每一个样本值从模拟量转换为二进制的数字值的过程。通常,把对声波波形幅度的数字化表示称为量化(Quantization)。
量化位数:又称作量化精度或采样位数,简单地说就是描述声音波形的数据是多少位的二进制数据。
量化位数也是衡量数字声音质量的重要指标,在相同的采样频率下,量化位数越高,声音的质量越好。
量化方法:均匀量化与非均匀量化
常用的量化位数:
24 bit DVD 质量
16 bit CD 质量 可用于高保真声音和音乐
12 bit 接近CD 质量 可用于专业或业余数字产品
8 bit FM 广播质量 可用于短的高质量音乐
4 bit AM 广播质量 可用于长的音乐,高质量的语音,音效
采样频率:即采样点之间的时间间隔。
量化深度(或称为量化分辨率):单位电压值的可分等级数;
两者与音质还原的关系是:采样频率越高,量化深度越大,
声音质量越好。
当频率越小(时间间隔越短),量化深度(量化分辨率)
越大,二者的轮廓越吻合,这也说明数字化的信号能更好
的保持模拟音频信号的形状,有利于保持原始声音的真实
情况。
编码
编码 将经过采样和量化后的数字化声音信号(脉冲数字信号)按一定的数
据格式以二进制形式表示,这个过程称为编码。
波形编码 基于音频数据的统计特性进行编码。经波形编码的音频质量好,
但压缩比不大,且为有损压缩,主要适用于高保真度语音和音乐的压缩技术。
参数编码 基于音频的声学特性进行的编码,其方法是将音频信息以某种模
型表示,再抽出合适的模型参数和参数激劢信息进行编码,声音重放时再根
据这些参数重建还原声音即可。该编码方式压缩比高,但还原信息的质量较
差,自然度低,计算量大,而且保真度不高。
感知编码 基于人的听觉特性进行的编码。从人的听觉系统出发,设计心理
声学模型,从而实现更高效的数字音频的压缩。它是有损压缩,但人耳基本
上分辨不出声音的失真。
声音通道的个数称为声道数,是指一次采样所记录产生的声音
波形的个数。
记录声音时,如果每次生成一个声波数据,称为单声道;每次
生成两个声波数据,称为双声道,也称为立体声。
随着声道数的增加,所占用的存储容量也成倍增加。
采样频率、每个采样值的量化位数以及声音信息的声道数目,是影响数字化声音信息质量和存储量的三个重要因素。
采样频率越高、量化位数越大、声道数目越多,声音的质量就越
高,但存储量就越大。
3.4 数字音频的存储量
对于未经压缩的数字音频,每秒存储量为原始音频的采样频率和量化位数的乘积/8。
若使用双声道再*2,还要乘以时间.
例如,数字激光唱盘(CD-DA)的标准采样频率为44.1 kHz,量化位数为16位,立体声。一分钟 CD-DA 音乐所需的存储量为
Details
采样频率:即采样点之间的时间间隔,采样间隔时间越短,音质越好。
量化深度(量化分辨率):是指单位电压值和电流值之间的可分等级数,
可分等级越多,音质越好。
音频流码率:数字化后,单位时间内音频数据的比特容量,流码率越大
音质越好。(相对指标)
四、音频文件的格式
有WAV格式、MIDI格式、MP3格式、RM格式等。
WAV格式是Windows使用的标准数字音频格式,也称为波
形文件,文件的扩展名为.wav。
利用声音卡和相应的软件可以通过录音创建波形文件,需要
时可以方便地将它播放出来,也可以通过适当的软件对文件
中数字化的音频信号进行编辑处理。
WAV波形文件比较大,实际使用时常常要将它进行压缩处理。
MIDI文件的扩展名为“.MID”。MIDI是(乐器数字接口)的缩
写。它是一个通信标准,规定计算机音乐程序、电子合成器
和其他电子设备之间交换信息与控制信号的。
MIDI文件占用存储空间小,但文件的录制比较复杂.需使
用专业设备录制,如键盘合成器等。
与WAV文件不同,MIDI文件记录的不是声音本身,而是将
每个音符记录为一个数字,因此比较节省空间,可以满足长
时间音乐的需要。
MP3格式采用MPEG Layer 3标准对WAVE音频文
件进行压缩而成,以达到CD唱盘的音质。
RM格式采用音频/视频流和同步回放技术来实现在
互联网上提供优质的多媒体信息。
五、语音的发声原理
5.1 人的发声器官
人的发声器官
(1) 肺和气管组成声源;
(2) 喉和声带称为声门;
(3) 由咽腔、口腔、鼻腔组成声道(共鸣腔体)
肺:压缩气体,通过气管传送到声音生成系统
喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。
声门:声带之间的间隙称为声门。主要功能:产生激励。
声道:声门之间的间隙称为声道。主要功能:传输调制声波。
声道的形状变换由舌、软腭、唇、牙决定。
口腔的结构
空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。
肺->声带->声道->嘴
:::
空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。
基音频率是由声带张开闭合的周期所决定的:
男性的基音频率一般为50~250Hz;
女性的基音频率一般为100~500Hz。
空气流经过声带时,如果声带是完全舒展开来的,则肺部
发出的空气流将不受影响地通过声门。空气流通过声门后,
会遇到两种不同情况。
一种情况是,如果声道的某个部位
发生收缩形成了一个狭窄的通道,当空气流到达此处时被
迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍
流空气通过声道后便形成所谓摩擦音或清音。
另一种情况是,如果声道的某个部位完全闭合在一起,当
空气流到达时便在此处建立起空气压力,闭合点突然开启
便会让气压快速释放,经过声道后便形成所谓爆破音。
::: theorem 共振峰率或者共振峰
声音进入声道后,其频谱必定会受到声道的共振特性
的影响,一部分频率被显著增大,这部分频率称为共
振频率。声道所具有的这一组共振频率,称为共振峰
频率或共振峰。
共振峰及其带宽取决于声道的形状和尺寸,因而不同
的语音对应于一组不同的共振峰参数。
每一个元音都有对应的一个共振峰,而且这个共振峰不随音高的改变而改变。
:::
5.3 激励和调制
语音生成模型:激励、调制、辐射 ::: center 激励(声门)=>调制(声道)=>辐射语音(嘴唇) :::
六、语音的听觉机理
听觉器官:外耳、中耳和内耳
听域与听阈:听域是指人能感知声音的范围;听阈是指人
耳能听到的最低声压级。
人耳听觉界限的频率范围大约为20Hz-20kHz;语音感知的强度范围是0-130dB声压级
响度:这是频率和强度级的函数。通常用响度(单位为宋)
和响度级(单位为方)来表示。此时响度级定为零方。测量
表明听阈值是随频率变化的。通常,人们把1kHz纯音听阈
值定为零方。
::: theorem 掩蔽效应
掩蔽效应:一个声音的听阈因另外一个声音的出现而升高
的现象成为掩蔽效应。
此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情
况下,被隐蔽音的听阈会提高,即加大被掩蔽音的强
度才能听到。此时听阈称为掩蔽听阈。
:::
声门产生的激励模型G(z)
声道产生的调制模型V(z)
嘴唇产生的辐射模型R(z)
语音信号的传递函数由这三个模型函数级联
而成,即:
H(z)=G(z)V(z)R(z)
6.1 激励模型
发浊音时,产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。清音可以模拟成随机白噪声。
6.2 调制模型
典型的声道调制模型有两种:无损声管模型和共振峰模型
::: theorem 共振峰模型 把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。 ::: 调制模型
6.3 辐射模型
从声道模型输出的是速度波,而语音信号是声压波。 二者倒比称为辐射阻抗,它表征口唇的辐射效应。
由辐射引起的能量损耗正比于辐射阻抗的实部R(z), 其频响曲线表现出一阶高通滤波器的特性。在实际信 号分析时,常用所谓预加重技术。这样,模型只剩下 声道部分,对参数分析就方便了。在语音合成时再进 行解加重处理。
6.4 语音信号的数字模型
激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。
激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流 脉冲的实际波形,还需要使上述的冲激序列通过一个 声门脉冲模型滤波器。
在清音的情况下,激励信号由一个随机噪声发生器产 生。设其均值为0,方差为常数,幅度具有高斯概率分 布。乘系数的作用是调节清音信号的幅度。
数字模型的基本思想是认为任何语音都是由一 个适当的激励源作用于声道而产生的,这意味 着激励源与声道系统是互相独立的。上述假定 对于大多数语音是合适的,但在有些情况下,例如某些瞬变音,实际上声门和声道是互相耦合的,这便形成了这些语音的非线性特性。
6.5 语音信号分析
6.5.1 短时时域分析
时域分析方法是最简单、最直观的方法,直接对语音信号的时域波形进行分析,提
取的特征参数主要有:
短时能量
平均幅度
短时平均过零率
短时自相关函数
短时平均幅度差
需要经历下面的步骤:
语音信号数字化:语音信号的频率范围通常是300Hz~3400Hz,
一般情况下取采样率为8kHz即可。我们讨论的
数字语音处理对象为语音数据文件,是已经数
字化了的语音。
有了语音数据文件后,对语音的预处理包括:
预加重、加窗分帧等。
预加重
预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。
预加重前后对比:
可以看到,在预加重之后高频部分的分辨率得到了有效的提高。
分帧
由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms~30ms)语音信号近似不变,即语音信号具有短时平稳性。
分帧就是把不定长的音频分为定长的小段:将语音信号分段来分析其特征参数,其中每一段称为一“帧”,帧长一般取为10ms~30ms。
采用可移动的有限长度窗口进行加权的方法来实
现的。一般每秒的帧数约为33~100帧。
分帧一般采用交叠分段的方法,这是为了使帧
与帧之间平滑过渡,保持其连续性。前一帧和后
一帧的交叠部分称为帧移,帧移与帧长的比值一
般取为0~1/2。
加窗
加窗是对帧进行加权的过程。
- 矩形窗,窗函数:
- 汉明窗,窗函数:
短时平均能量
短时能量序列反映了声音的振幅和能量随时间缓慢变化的规律。
短时平均能量 En
窗的长短对于能否由短时能量反映语音信号的幅度变
化,起着决定性影响。
如果窗选得很长, En不能反映语音信号幅度变化。窗选得太窄, En将不够平滑。
通常,当取样频率为10kHz时,选择窗宽度N=100~200是比较合适的。
短时平均能量的主要用途如下:
1)可以作为区分清音和浊音的特征参数。
2)在信噪比较高的情况下,短时能量还可以作为区
分有声和无声的依据。
3)可以作为辅助的特征参数用于语音识别中。
短时平均过零率
在离散时间语音信号情况下,如果相邻的采样具有不
同的代数符号就称为发生了过零。单位时间内过零的
次数就称为过零率。
分析:
清音过零率高,浊音过零率低。
端点检测:
端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。
有效的端点检测不仅能使处理时间减到最少,而且能抑制无
声段的噪声干扰,提高语音处理的质量。
将短时能量与短时过零率结合进行检测。
短时频域分析
使用短时频域分析可以观察语音信号的共振峰特性、基音频率和谐波频率。
6.6 语谱图
语谱图怎么得来?
通过时域分析+频域分析=语谱图
在语谱图中,纵轴表示频率,横轴表示时间,颜色的深浅表示能量。
语谱图的生成过程:采样、预加重、分帧、加窗、变换、拼接。
变换
窄带:在长窗条件下画出的语谱图,带宽小,时宽大短时窗长。
宽带:与窄带相反。
窄带语谱图的带宽窄,那么在频率上就“分得开”,即能将语音各次谐波“看得很清楚”,即表现为“横线”。“横”就体现出了频率分辨率高。分辨率可以直观的看做“分开能力”。“频率分辨率”高就是在频率上将各次谐波分开的能力高,表现为能分辨出各次谐波的能力高,频率分辨率越高,越容易分辨各次谐波。
宽带语谱图的时宽窄,那么在时间上就“分得开”,即能将语音在时间上重复的部分“看得很清楚”,即表现为“竖线”。“竖”就体现出了时间分辨率高。时间分辨率越高,谱图上的竖线看得越清楚。
下面是一个窄带语谱图的例子
下面是一个宽带语谱图的例子
七、语音处理
7.1 波形编码合成
语音的波形编码合成也称录音编辑合成,其基本思路是:以语句、 短语、词和音节为合成单元,这些单元被分别录音后,直接进行 数字编码,经适当的数据压缩,组成一个合成语音库;重放时, 根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。
7.2 参数式分析语音合成
语音的参数式分析合成是以音节、半音节或音素为合成单元,其 基本思路是:首先,按照语音理论,对所有合成单元的语音进行 分析,一帧一帧地提取有关语音参数,这些参数经编码后组成一 个合成语音库;输出时,根据待合成的语音信息,从语音库中取 出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合 成器中,在合成参数的控制下,再一帧一帧重新还原语音波形。
文字-语音转换系统
7.3 语音增强
语音增强主要有两方面的目的:一是改进语音质量,消除背景噪声,使听者乐于接收不觉疲劳,这是一种主观度量;二是提高语 音可懂度,这是一种客观度量。 语音增强方法大体可分为四大类:噪声对消法、谐波增强法、基 于参数估计的语音再合成法和基于语音短时谱估计的增强算法。
- 噪声对消法 噪声对消法的原理很简单,就是从带噪声语音中减去噪声。
- 谐波增强法 语音信号的浊音段有明显的周期性,利用这一特点,可采用自适应梳状滤波器来提取语 音分量,抑制噪声。
- 基于参数估计的语音再合成法 语音的发生过程可以模型化为激励源作用于一个线性时变滤波器,激励 源可以分为浊音和清音两类,浊音由气流通过声带产生。
- 基于语音短时谱估计的增强算法 语音是非平衡随机过程,但在10ms~30ms的分析帧内可以近似看成是 平稳的,若能从带噪声语音的短时谱中估计出纯净语音的短时谱,则可达到增强的目的。
7.4 语音识别
是一个模式匹配的过程。
问题
- 为什么语音信号的时域分析要采用短时分析技术?
语音分析有一个重要假设:短时不变。假设在极短的时间,如20ms内,声音信号不发生变化,这个时间片段称为语音的帧。从而我们可以将语音信号离散化,利用这一帧附近信号在时域、频域的分布提取语音在这个时刻的特征。通过短时分析,可以得出音频很多特征点。
- 在语音信号参数分析之前为什么要进行预处理,有哪些预处理过程?
预处理的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
预处理一般包括预加重、加窗和分帧等
- 语音信号的短时平均能量和短时平均过零率分析的主要用途是什么?
短时平均能量
a. 可以作为区分清音和浊音的主要参数。
b. 在信噪比比较高的情况下,可以作为区分有声和无声的依据。
c .可以作为辅助的特征参数用于语音识别之中。
短时平均过零率
区分清音和浊音。
- 端点检测的意义?
从语音信号中确定出起点和结束点,使处理时间有效减少,抑制无声段噪声的干扰,提升语音质量。