作者回复: 其实文献就在文章里哦,比如《语音学:标音、产生、声学和感知》这本书就很推荐
作者回复: K歌软件打分主要是用的基频对比,既你和原唱的音调在同一时间点上是否一致。然后有的还会结合你唱歌的短时能量,比如你唱的声音是否时强时弱等来综合评断。一般不会直接用频谱,因为每个人的音色是不一样的,直接用频谱打分过于严苛了。
作者回复: 要想理解频谱泄漏不妨试一试直接截取一段做画一下频谱和加窗后再画频谱看看有什么区别。剧透一下你会发现直接截取频谱中出现了很多本来没有的频率分量这就是频谱泄漏
作者回复: 可以这么理解谐波实际上是由于声道这个非线性系统导致的,一个单频信号经过非线性变换后会产生多个倍数于它本声频率的波形。这也就是谐波激励模型的由来。换句话说如果是个线性系统比如你敲一下音叉,那么由于只有空气传播(线性)你听到的就只有单频音。
作者回复: 确实有不少是这个专业的人,毕竟通信的本身就包含了一部分的音频。但有些方面比如美声音效、空间音频可能就比较跨专业了。
作者回复: 多谢分享,不同的库版本可能有不同的依赖。
作者回复: 一帧是固定长度个采样点
作者回复: 1、其实敏感的意思是即使声压级很小你也觉得很响,这里4kHz只需要很小的声压就感觉和其它频率很高的声压响度一样。 2、可以把你的代码的贴一下或者把中间结果打印一下看看是不是哪里有问题
作者回复: 在降噪中主要是一些常见的陷波滤波器,FFT滤波器等。引入的延迟并不大
作者回复: 背景噪声只有浊音可能短时平均过零率也不好用,背景噪声一般为混合噪声过零率会大于人声中的浊音(这个假设成立的概率较大)。