声音采样判断两段声音是否一致需要测量哪些要素？

声音四要素是：音强、音高、音色和波形。两段声音是一致的测度有很多种，比如欧拉距离，KL距离，甚至马拉诺比斯距离，采用不同的测度方式得到的结果都是不一样的。其次，采用什么样的信号表示，声音可以有时域表示（时域信号），可以有时频域表示（短时傅里叶变换），甚至可以有变窗长的时频分析方法。一般情况，使用欧拉距离在时频域比较是比较可靠地。振幅，频率，可能还有相位，人耳的话，好像对相位不敏感。显然重放设备也要求有较好的瞬态跟随能力，不然就会引起乐音自然包络的畸变。

20221125095616578357 — 声音采样判断两段声音是否一致需要测量哪些要素？ 2

考虑到不同声音采样率的不同，首先做统一的 SRC 处理，将两段音源转换至同一采样率下；从转换后的两段数据中，分别提取出两份疑似相同的片段，并根据实际情况对两份采样进行预处理，例如低通滤波（以减小有损压缩对高频成分的影响）或直接将这两份采样转换为动态功率谱形式（也可以理解为将该采样数据直接转换至频域下）；对这两份数据进行相关性计算，通过相关系数计算结果判别是否为同一录音。提到的反相相加不失为一种应用上简单易行的方法，但如果要追求更加严格且有说服力的结果的话，一个接近 1（亦或 -1）的相关系数计算结果绝对可以胜任此工作；而检测MD5码则不可行，因为现实中遇到的情况往往会很复杂，绝非只要检测看每个比特是否一致就能判断的——例如两份从同一张CD上转录出的文件，若是出现数字电平不一致，声音采样率不一致，比特率不一致，任意一种可能，最后都无法得到两份能通过 MD5 校验的文件。

第二种可能：有哪些声音中的因素，即使改变了，人听上去还是觉得这两段声音是一样的；直接说：相位。并不是说相位因素人耳绝对听不出来，只是说相位因素对人的听觉系统来说非常不敏感（相对于人的视觉系统来说），尤其是从声音文件上即存在的微量的相位差，对人耳来说很难发现，但是这些相位差对采样数据来说则会造成巨大的差别，以至于直接套用上一种做法时，计算时域形式下的相关系数计算结果会不靠谱。靠动态功率谱形式的数据来按照上述方法处理的话，理论上讲结果会相对靠谱——因为其所受相位因素的影响极小。

音乐采样是指录音设备在单位时间内对模拟信号采样的多少，音乐采样器频率越高，机械波的波形就越真实越自然。在当今的主流采集卡上，音乐采样器频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质，44100Hz则是理论上的CD音质界限，48000Hz则更加精确一些。

声波其实是一种机械波，因此也有波长和振幅的特征，波长对应于时间轴线，振幅对应于采样值轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的采样值，很显然，在单位时间中内抽取的点越多，获取得波长信息更丰富，为了复原波形，一个周期中，必须有至少2个点的采样，人耳能够感觉到的最低波长为1.7cm，即20000Hz，因此要满足人耳的听觉要求，则1s采样至少40000次，用40000Hz（40kHz）表达，这个40kHz就是采样率。我们常见的CD，音乐采样器的频率为44.1kHz。

声音采集过程中视频和音频同步是非常重要的，光有波长信息是不够的，我们还必须获得该波长的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16级的采样大小，即2的4次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

转载请注明：音频吧编曲资源网 » 声音采样判断两段声音是否一致需要测量哪些要素？

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

与本文相关的文章