模拟音频如何转换成数字音频
本文将介绍音频模数转换的一些基础知识,通过了解你会知道MMA-A是基于怎样的技术原理,以致能够透过iPhone手机录制完美高格式的音频。
音频转换
音频转换就是将模拟(Analog)信号转换成数字(Digital)信息,把连续的波形信号转换成离散的数字信息,之后再把这些数字信息转换成声音信号。
图表(一) 将模拟音频转换成数字信息的过程:
1、来自模拟源的输入,即话筒。
2、信号在采样前进行低通滤波(反混叠anti-aliasing)。
3、采样(S / H =采样和保存)是在给定的频率下进行的,它确定了数字化音频的频率上限。
4、然后确定每个样本的大小(量化quantization)。每个样本可用位数决定量化音频样本的精度。越多的位数等于越高的动态范围。
5、二进制代码(0和1)被存储或传递到另一个设备上(存储/传输)。
采样
音频转换的基础就是采样。样本是在给定的时间点上对音频波形的单一点进行离散测量。一个样本是一个单一值。该值可以存储或传递到另一个设备上。
然而,一个样本是不足以重现一段鲜活的声音的。要存储与原始音频波形相关的足够信息,需要大量的样本。
所以,在第一个样本被取样后不久,另一个样本也开始被取样。声音一直在播放,所以这个新的样本也可能会有一个新的值。再一次取样,一个样本被取样后不久,另一个样本被取样,如此反复,不一而足。
图表 (二) 样本是对原始音频的一个点的测量
每秒钟采集的样本数量——采样率——决定了数字化后可能重构的最高音频频率。规则是:你需要的样本数至少是你想要复制的最高频率的两倍(或者每段音频至少需要两个样本)。如果你想记录频率高达20千赫的音频,那么你将至少需要记录40000个样本/秒(或者以不同的方式表达:采样频率至少为40千赫)。为了使这项工作得以实践,我们为这个项目采用了一些标准化的采样频率,例如:44.1千赫和48千赫。
混叠
如果你不遵循一段音频至少取样两个样本的规则,那么可能会捕捉到无用的混叠频率。为了防止这种情况发生,你需要在取样之前应用“反混叠”过滤器。就是一个低通滤波器,可以阻止高于采样频率一半的频率。
这样的滤波器会影响音频。超采样(例如,加倍采样或把采样率翻两番,这样可以使音质从过滤器中影响更小)。
(然而,将采样频率增加一倍也会使记录的数据量增加一倍)。
图表 (三) 采样频率
如果采样频率不是最高音频频率的至少两倍,则重构的声音信号与输入信号将不一致。
顶部:信号的一个周期采样率为6次。6 > 2,这样就可以重构信号了。
中间:信号的两个周期采样率为6次,相当于每周期3次。3 > 2,这样也可以重构信号。
底部:信号的六个周期采样率为6次,相当于每周期1次。1 < 2,所以信号以混叠频率结束,这与原始频率不同。
抖动
在音频转换过程中需要注意的另一个非常重要的事情是每个样本之间的间隔。每个样本之间的间隔连续时间必须是完全相同的。因为数字化时,没有关于每个样本的时间信息。所以我们必须依靠稳定的重复抽样,而且必须是一个恒定的时间间隔。(例如,当采样率为48千赫兹时,那么任何两个样本之间的间隔时间为20.833微秒[μs]。)
采样时间必须是稳定的,不应受到任何干扰。(不严密的重复采样,也称为抖动,会导致重构音频里有噪音。)
量化
如前所述,每个样本代表原始信号的一个点。每个点的测量值和存储值都是尽可能精确的,这至关重要。在采样过程结束后,所有对参考值的引用都将会丢失。
量化这个词来自拉丁文“quantitas”,意思是数量或大小。为了描述一个样本的大小,我们使用比特“Bit”,它是“二进制数字”的缩写。二进制表示数字只有0或1。如果我们想要计算更高的数字,我们必须增加更多的位(也可以叫比特数)。例如,应用两个二进制数字就可以得出四个值:00、01、10和11。再增加一个位,每增加一个位,值就增加一倍。
测量精度(或量化)取决于每个样本可用的位数。每个位值表示一个预定值。如果原始信号的值与预定值相匹配,那么一切没问题。如果不是,那么你必须接受可用的最近值。但这将带来了一个永远无法弥补的误差。所以为了减少误差,必须在每个样本中分配足够多的位数。样本位数不够会产生失真,而增加样本位数可以把失真变小,感觉像噪音一样,问题是你需要多低的噪音。基本上,每增加一个位数,信噪比增加6分贝。
计算机的运算是以8位的二进制数运算的,这意味着每个样本的首选(实际)位数是8、16、24,等等。每个样本都以8位二进制的话,对于声音来说太低了,音质不好。CD的音质一般是16位的样本。为了制作高质量的音频,应用24位的样本是最好的。
图表 (四) 量化
通过量化,确定了读取值精度的位数。每一次多一个位时,刻度的分辨率加倍,测试的误差减半。实际上,这意味着每个位数提高了大约6分贝的信噪比(SNR)。
D-A
在从数字到模拟音频的转换中,目的是产生与数字信息中所包含的数值成比例的信号。每个位代表一个电压值。最高有效位(MSB)转换成最大电压;下一个最高有效位转换成电压的一半,以此类推直到最低有效位(LSB)。通过求出所有的电压步骤数,并将每个求和值保留到下一个样本被取样,就会产生一个连续信号。然后通过应用低通滤波器平滑信号。
图表 (五) 数字 / 模拟转换
1、在数字到模拟音频转换过程中,存储的数字被转换回模拟值。
2、这些数字被输入至可编程电源,以便他们重新创建相应的电压步骤。
3、低通滤波器通过去除高于所期望的频率范围的谐波泛音来消除信号。
4、输出是纯模拟音频。