01｜声音是如何保存成数字信号的？

冯建元

你好，我是建元。
作为专栏的第一节课，今天我们来聊聊音频信号中的一些基础知识，带你近距离地了解一下音频这个既熟悉又陌生的领域。这节课我们重点学习一下音频信号的关键指标和常见的音频封装格式，它们算是基础中的基础，希望你能够快速掌握。
音频信号的关键指标声音我们每天都会听见，似乎早已习以为常。那么我们是怎么把声音信号转换成数字信号记录下来存储和传输的呢？
声音是听觉对声波产生的感知，而声波的本质是介质的振动，比如空气的振动。那么我们只需要把这个振动信号记录下来，并用一串数字来表达振动信号振动的快慢和振动的幅度，就可以实现声音的记录。
如图 1 所示，以前的留声机就是通过唱片上凹槽的深浅、长短来表征声音的振幅和持续时间。
图1 留声机与唱片
我们现在一般用麦克风来实现声音的采集。那如何通过麦克风来采集声音呢？
图2 音频数字信号的生成
使用麦克风的音频数字信号采集过程如图 2 所示：
首先，声波通过空气传播到麦克风的振膜。
然后，振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号（Analog Signal）。
最后，通过 A/DC（模数转换器）将模拟信号转换成数字信号（Digital Signal）。即通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了音频信号的数字化过程以及有损和无损音频编码封装格式。首先，通过麦克风采集声音，然后通过A/DC将模拟信号转换成数字信号。关键指标包括采样位深、采样率和通道数。有损音频格式如MP3通过压缩算法减少文件大小，而无损格式如FLAC采用可完美还原的压缩算法。WAVE格式作为一种简单的封装格式，由WAVE文件头部分和WAVE文件数据体部分组成。文章还提到了WAVE文件的封装格式和具体单通道和双通道数据的排列方式。最后，文章强调了根据使用场景选择音频信号的关键指标和封装形式的重要性。整体而言，本文通过简单的计算和实例，帮助读者更好地理解了音频数字信号的基本构成和存储需求。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《搞定音频技术》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(25)

最新
精选

徐刚
思考题：从音频文件采集，存储，播放来看，任何一个环节都会引发这个问题；采集：原始音频文件采集的设备质量不高，导致高频段有损伤存储：音频文件采用有损压缩，可能会造成高频段损伤播放：播放设备质量差，不能很好表现高频段信号
作者回复: 这个回答的很全面了。
2021-11-26
2
22
Dom
这个问题可以从声学链路上面去思考，我们常见的声学链路如下：麦克风---AD采样---音频封装---音频解封----音频处理----PA---Speaker---音腔等通道根据上面的链路，都有可能出问题，比如 1.麦克风被堵住了，录出来的声音效果不好 2.AD采样芯片有失真，这个失真特别的严重 3.音频封装出错，先是用低质量的格式在做封装，然后再重新进行数据转换； 4.音频处理，加了一些错误的音频处理模块，导致输出的声音有问题 5.PA芯片出问题， 6.speaker老化或者组装出问题 7.音腔或者整个听音的地方有问题，导致最终的效果不好
作者回复: 这个回答的角度很全面
2021-12-31

17
springXu
关于思考题原始的采集设备只是普通话筒，再高的采样率和位深，也是没用的。又或者输出的喇叭只是能还原低频部分音效。问个老技术 midi音是什么？midi文件又是什么样的格式？
作者回复: 这位同学回答的不错。MIDI全称是Musical Instrument Digital Interface顾名思义是一种音乐乐器的记录格式。以钢琴为例，MIDI文件记录了时间序列中每个钢琴音的起止位置、按键力度等信息。很显然光有MIDI文件你是听不到声音的还需要有一个记录了乐器各种音的音调的音源库配套使用，比如文件记录在第3秒要弹一个C4的音，然后就去音源库把C4的音源按时间拼接上去，最后依次把所有的乐器音都拼接起来就成了可播放的音频文件。起初各大厂商MIDI文件格式都不太统一。直到后来MIDI1.0标准的发布各家厂商遍都遵循了相同的标准。现在已经发展到MIDI2.0了。
2021-11-22
2
8
Dom
请问冯老师，有比较好的工具去分析不同的音频格式的文件吗？可视化的显示音频信息
作者回复: 可以试试python的librosa来处理。或者Adobe audition 这样的可视化软件
2021-12-31

5
ripple
重采样吧
作者回复: 没错，这是其中的一种很常见情况，音频直接上采样用的是插值的方法，是无法恢复高频信息的。如果原始音频文件的质量很差或者采集设备的音质很差那么即使这些采样率的指标看起来很好音质也不会好听。
2021-11-23

4
痴
pcm格式的文件播放时，为什么要输入采样率、位深、和通道数？是不是两个参数就可以了？比如采样率和通道数，再获取文件大小算出位深？最近有个音频相关，我只知道采样率和通道数以及pcm数据，是否可以算出位深？请老师赐教
作者回复: PCM格式的存储空间是三个参数相乘再乘以时间，所以如果少了其中一个就可能出错了
2022-01-14
2
1
功夫熊猫
栅栏效应，频谱泄露？或者信道干扰太大了？
作者回复: 思路可以宽一些、采集、播放设备、经过了重采样都是可能的因素
2021-12-21

1
Leo
网络音视频会议场景需要平衡音质和传输带宽消耗，我们一般可以使用 16kHz 或者 32kHz 的采样率 === 人的听觉是20kHz范围内，32kHz有意义么？
作者回复: 采样率和听到的频率是两倍的关系
2021-12-09

1
eletarior
请教老师一个问题，声音在渲染前，是否要求字节对齐呢？
作者回复: 音频中每个采样点都需要按照顺序排列播放，不然人耳很容易听到杂音异常。
2021-11-24

1
T------T
思考题 1.这个文件是由一个8000kHz 转换过来的 2.音频采集的时候声源本身就是分布在低频段的声音
作者回复: 回答的很对！再举个例子，也有的时候音源很好，但播放设备不好也有可能，比如手机的扬声器被堵住了。
2021-11-22

1

收起评论