看不见的采样：数字世界如何听懂你的声音

你有没有想过一个问题：你对着手机唱了一首歌，手机是怎么把「声音」变成「文件」的？

声音是振动是空气分子被挤压和释放形成的波这个波是连续的像一条没有间断的曲线而计算机是数字的它只认0和1 只处理离散的数值一个连续一个离散它们之间隔着一道鸿沟

填平这道鸿沟的是一个叫奈奎斯特-香农采样定理的东西简称采样定理

采样定理的核心思想其实很朴素如果你想知道一条连续的曲线长什么样不需要记住每一个点只需要每隔一段固定的时间「拍一张快照」然后用这些快照拼起来就能还原出原来的曲线

举个例子假设一段声音的频率是1000Hz（每秒振动1000次）根据采样定理你至少要以每秒2000次的速度对它进行采样这就是著名的「奈奎斯特频率」——采样频率至少要是信号最高频率的两倍

如果你采样率不够就会发生一个非常有意思的现象叫做「混叠」想象一个车轮在电影里看起来在倒转那是因为摄像机的帧率不够快车轮每一圈的实际位置被「误读」成了倒退声音里的混叠也是一样高频信号会伪装成低频信号混进来让声音失真

为什么CD用44.1kHz？

人耳能听到的频率范围大约是20Hz到20000Hz（20kHz）根据采样定理要完整还原20kHz以内的声音采样率至少要是40kHz

那为什么CD的标准是44.1kHz而不是刚好40kHz呢因为抗混叠滤波器不是完美的它需要一个过渡带从允许通过的最高频率到完全阻隔的频率之间有一段「斜坡」如果采样率卡在40kHz 滤波器的过渡带就会侵入人耳可听范围影响音质留出4.1kHz的余量滤波器就能从容地把20kHz以上的频率干净地切掉

这就解释了为什么44.1kHz成了数字音频的黄金标准

采样解决了「什么时候记」的问题但还有一个问题没解决：每个采样点的值怎么记

声音的振动幅度是连续的但计算机只能用有限的二进制位数来表示它这个过程叫量化

如果用的是16位（CD标准）那就是把振幅范围分成65536个等级每一个采样点都被「归入」离它最近的等级

这里就引入了一种不可逆的误差——量化噪声就像给一座连绵起伏的山脉拍照像素够高的时候山峰和山谷的轮廓都清晰像素不够山脊就变成了一格一格的锯齿

有意思的是人类耳朵对量化噪声的敏感度远低于对混叠的敏感度所以采样定理解决的是「能不能还原」的质变问题量化解决的是「还原得好不好」的量变问题一个关乎生死一个关乎品质

今天的流媒体音乐平台比如Spotify或网易云通常使用44.1kHz/16位甚至更高的规格来存储母带但在传输的时候会用感知编码（比如MP3、AAC）把「人耳听不到的部分」丢掉基于一个叫心理声学模型的东西

这个模型利用了人类听觉的两个特点：频率掩蔽——一个响亮的频率会盖过它附近较弱的频率以及时间掩蔽——一个突然的强音会让耳朵在短时间内对弱音不敏感

把这些「听不到」的信息去掉文件就能压缩到原来的十分之一以下而人耳几乎察觉不到区别

采样定理的应用远不止音频数码相机把连续的光信号变成离散的像素这也是采样医学上的CT扫描把人体横截面切成一层层的图像这也是采样甚至你刷到的这个网页它显示在屏幕上的每一个字本质上也是通过采样把矢量轮廓变成了像素点阵

如果说计算机科学有一个最优雅的思想采样定理一定在其中它告诉我们：连续的无限世界可以被离散的有限信息忠实地再现只要你的采样足够聪明世界就能在数字空间中完整地活着

而你现在打开音乐APP 点一首歌耳机里流淌出来的每一个音符都来自一百多年前一个数学家对一个物理学问题的回答