在音频开发过程中,总会面对很多音频领域的一些专业名词,如果不能理解这些名词,可能会对开发领过程造成极大的困扰,在进入一些新领域时,熟悉这个领域常用的概念是很有必要的,可以极大减少了沟通和理解的成本。
模拟音频
声音是物体的震动产生的波,声波一般不是正弦波,比如这种
我们常说声音的三要素:音调,音色,响度。
音调:主要指的是声音的频率,频率越高,音调越高。 音色:主要指的是波形不同(谐波) 响度:主要指的是声音的音量,在声波中的体现就是振幅,振幅越大,响度越大
看到这里可能有疑惑,既然声音是不规则的波形,为什么声音三要素的定义似乎都参照正弦波这种规则波形定义呢?
因为傅里叶变换告诉我们,任何波形都可以转换为N个正弦波来表示,其中频率最小,振幅最大的正弦波为基波,其余的为谐波,音调和响度基本依照基波来定,而音色则是谐波来决定的。
音调和响度决定了发音方式,比如每个人都可以对某个字发音,但是不同的人音色不同,也就是其声音的谐波不同,所以听起来是不一样的。
数字音频
在现实世界中,声音是连续的,但是在网络世界,数据则是离散的,现实世界的声音录入计算机往往需要经历一次采样,就是在连续的声音波形中定期打点取样,只要每秒打点次数足够多,那么就可以近似认为这些点组成了连续的波形。
PCM
PCM 是指脉冲编码调制(Pulse Code Modulation)
把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM
处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。
而且在数字世界,声音不再用音调,响度,音色来定义,而是需要关注采样率,采样精度(位深度),声道数。
采样率(sample rate)
采样率就是我们说的一定周期内对现实声波采样的次数,比如我们常见的44100hz,就是每秒钟对声音采样44100次,相当于每秒钟记录了44100个声音的数据。
声音的采样频率一般共分为22.05KHz
、44.1KHz
、48KHz
三个等级:
-
22.05kHz
采样率的声音可以达到CD音质的一半 -
44.1kHz
采样率是标准的CD音质,可以达到很好的听觉效果(一般最常使用) -
48KHz
:miniDV、数字电视、DVD、电影和专业音频
采样精度(位深度/bit depth)
每个采样点所能表示的数据范围,范围越大表明声音越丰富,越细腻。波形的纵轴就表示采样点的大小。
通常有8bit和16bit两种,也有更高的,比如20bit,24bit,32bit.
8bit
为低品质
16bit
为高品质(最为常见)
假如声音的采样精度为16bits,则每个采样点能表示得范围是2^16,如果是8bits,则每个采样点能表达的范围是2^8,显然,前者比后者更加精确,在数字音频领域,就表现为声音的还原度更高,声音更细腻。
声道数(channel/通道)
声道是存储音频的轨道,用来给发声设备发声,一般音频文件中可能不止一个声道,多个声道保存了多份音频数据,用来给不同的设备发声。
常见声道有单声道(mono)、双声道(stereo)、2.1声道、4声道、5.1声道、7.1声道。
其中单声道是一个声道,双声道是两个声道,后面数字表示的声道,声道数就是是小数点前后数字相加,比如2.1是三个声道,5.1是6个声道,7.1是8个声道。
- 双声道: 左声道+右声道 也称作立体声
- 多声道: 超过2个声道即可
- 2.1声道: 两个中高音单元+1个低音单元
- 4声道: 前左、前右,后左、后右四个发声单元
- 5.1声道:两前置单元,两后置单元,一个中央单元,一个低音单元,最早应用于早期的电影院
- 7.1声道:在5.1的基础上增加了左后和右后两个发声单元,主要应用于BD以及现代的电影院
比特率(码率/bit rate)
表示一秒钟音频的信息量。
因此它是一个可以计算的数据:
bit_rate = channel_count * sample_rate * bit_depth / 8
我们可以利用音频的比特率来计算当前音频帧的显示时间戳(PTS)
数字音频压缩
我们提到采样到数字领域的音频数据是无压缩的原始数据,因此后续会经过一些编码算法处理来进行压缩。
压缩算法主要可以分为无损压缩
和有损压缩
无损压缩
无损压缩指的是在无损格式之间的压缩,无论压缩成什么格式,音质都是不变的,并且都能被还原成最初同样的文件格式。
FLAC(Free Lossless Audio Codec)
压缩比高,编码算法也相当成熟,当flac文件受损时依然能正常播放。
参数
- 采样率 1–655350Hz (逐1hz微调)
- 比特率 灵活
- 位深度 8, 16, 20, 24, 32
- 多通道 1-8
ALAC
无损压缩,采样率灵活,采样深度范围较大
参数
- 压缩率
- 采样率 1–384000Hz
- 比特率 灵活
- 位深度 16, 20, 24, 32
- 多通道 1-8
APE(Monkey’s Audio)
无损压缩,采样率灵活。
不支持多通道,采样深度不够
参数
- 采样率 1–655350Hz
- 比特率 灵活
- 位深度 8, 16, 24
- 多通道 否
有损压缩
MP3 (MPEG Audio Layer III)
比特率的限制320kbit/s
采样频率最高为48kHz,对于超过48kHz采样频率的音频无法编码在MP3内
参数
- 采样率 32khz 44.1 khz 48kHz (仅允许三种)
- 比特率 6、12、24…96, 112, 128, 144, 160, 192, 224, 256, 288, 320kbit/s等 (128以上音质不错,CD上未经压缩的音频比特率为1411.2 kbps)
- 采样精度 8, 16,
- 声道数
AAC (Advanced Audio Coding)
mp3的升级版,有更好的采样率,采样深度,更多声道数,更好的压缩算法。
参数
- 采样率 8–192kHz
- 比特率 8–529kbit/s
- 采样精度 8, 16, 24, 32 bit
- 多通道 1-48