最新消息:微信号:upumusic 开通会员 | ¥68月会员 ¥98季度会员 ¥198年会员 ¥298终生会员 | 网站资讯均来自互联网索引,信息如有侵权请联系删除

声音采样判断两段声音是否一致需要测量哪些要素?

音乐知识 音频吧 43浏览

声音四要素是:音强、音高、音色和波形。两段声音是一致的测度有很多种,比如欧拉距离,KL距离,甚至马拉诺比斯距离,采用不同的测度方式得到的结果都是不一样的。其次,采用什么样的信号表示,声音可以有时域表示(时域信号),可以有时频域表示(短时傅里叶变换),甚至可以有变窗长的时频分析方法。一般情况,使用欧拉距离在时频域比较是比较可靠地。振幅,频率,可能还有相位,人耳的话,好像对相位不敏感。显然重放设备也要求有较好的瞬态跟随能力,不然就会引起乐音自然包络的畸变。


考虑到不同声音采样率的不同,首先做统一的 SRC 处理,将两段音源转换至同一采样率下;从转换后的两段数据中,分别提取出两份疑似相同的片段,并根据实际情况对两份采样进行预处理,例如低通滤波(以减小有损压缩对高频成分的影响)或直接将这两份采样转换为动态功率谱形式(也可以理解为将该采样数据直接转换至频域下);对这两份数据进行相关性计算,通过相关系数计算结果判别是否为同一录音。提到的反相相加不失为一种应用上简单易行的方法,但如果要追求更加严格且有说服力的结果的话,一个接近 1(亦或 -1)的相关系数计算结果绝对可以胜任此工作;而检测MD5码则不可行,因为现实中遇到的情况往往会很复杂,绝非只要检测看每个比特是否一致就能判断的——例如两份从同一张CD上转录出的文件,若是出现数字电平不一致,声音采样率不一致,比特率不一致,任意一种可能,最后都无法得到两份能通过 MD5 校验的文件。

第二种可能:有哪些声音中的因素,即使改变了,人听上去还是觉得这两段声音是一样的;直接说:相位。并不是说相位因素人耳绝对听不出来,只是说相位因素对人的听觉系统来说非常不敏感(相对于人的视觉系统来说),尤其是从声音文件上即存在的微量的相位差,对人耳来说很难发现,但是这些相位差对采样数据来说则会造成巨大的差别,以至于直接套用上一种做法时,计算时域形式下的相关系数计算结果会不靠谱。靠动态功率谱形式的数据来按照上述方法处理的话,理论上讲结果会相对靠谱——因为其所受相位因素的影响极小。

音乐采样是指录音设备在单位时间内对模拟信号采样的多少,音乐采样器频率越高,机械波的波形就越真实越自然。在当今的主流采集卡上,音乐采样器频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级,11025Hz能达到AM调幅广播的声音品质,而22050Hz和24000HZ能达到FM调频广播的声音品质,44100Hz则是理论上的CD音质界限,48000Hz则更加精确一些。


声波其实是一种机械波,因此也有波长和振幅的特征,波长对应于时间轴线,振幅对应于采样值轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的采样值,很显然,在单位时间中内抽取的点越多,获取得波长信息更丰富,为了复原波形,一个周期中,必须有至少2个点的采样,人耳能够感觉到的最低波长为1.7cm,即20000Hz,因此要满足人耳的听觉要求,则1s采样至少40000次,用40000Hz(40kHz)表达,这个40kHz就是采样率。我们常见的CD,音乐采样器的频率为44.1kHz。

声音采集过程中视频和音频同步是非常重要的,光有波长信息是不够的,我们还必须获得该波长的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16级的采样大小,即2的4次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。

转载请注明:Audioba-音频吧编曲混音资源网 » 声音采样判断两段声音是否一致需要测量哪些要素?