搞定音频技术
冯建元
声网 Agora 音频算法专家
5340 人已学习
新⼈⾸单¥59
登录后,你可以任选3讲全文学习
课程目录
已完结/共 19 讲
搞定音频技术
15
15
1.0x
00:00/00:00
登录|注册

06|如何将AI技术运用到降噪中?

你好,我是建元。
上节课我们讲了噪声的分类和一些常见的传统降噪算法。传统算法通过统计的方法对噪声进行估计,并可以对稳态噪声起到比较好的降噪作用,但是在非稳态噪声和瞬态噪声等噪声类型下,传统降噪算法往往不能起到比较好的效果
最近几年,随着 AI 技术的不断演进,在降噪等音频处理领域,都出现了很多基于 Artificail Intelligence(AI)或者说基于人工神经网络模型的降噪算法。这些 AI 算法在降噪能力上较传统算法都有很大的提升。但 AI 降噪算法和很多其它 AI 算法一样,在部署的时候也会受到诸如设备算力、存储体积等条件的限制
这节课就让我们看看 AI 降噪算法是如何一步步实现的,以及在实时音频互动场景中,我们如何解决 AI 降噪算法的部署难题。

AI 降噪模型的基础知识

AI 模型也就是我们经常听到的深度学习模型、机器学习模型或人工神经网络模型。其实 AI 模型的定义更为广泛,后面的这几种说法都是从不同角度描述了目前常用 AI 模型的特点。
AI 模型的构建普遍采用大量数据训练的方式,来让模型学习到数据内隐含的信息,这就是所谓的机器学习。在降噪这个领域,模型的输入是带噪的语音信号,模型的输出是纯净的语音信号,我们通过大量的这样成对的带噪和纯净的语音数据,来训练 AI 模型,使其具有降噪的能力。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

AI技术在降噪领域的应用备受关注。传统降噪算法在应对非稳态和瞬态噪声时效果有限,而基于人工神经网络模型的AI降噪算法取得了显著进展。文章介绍了AI降噪模型的基础知识,包括常见的模型结构,如深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)。这些模型通过大量带噪和纯净的语音数据进行训练,以实现对带噪语音信号的降噪处理。此外,文章还提到了AI降噪算法在实时音频互动场景中的部署难题,包括设备算力、存储体积等条件的限制。基于频域掩码的AI降噪算法通过STFT得到频域信号,利用人工神经网络得到频域掩码,进而实现降噪处理。在实践中,增加相位谱的恢复相比只对幅度谱做修正,需要消耗更多的算力和模型存储空间,可能会为模型的部署造成困难。总体而言,AI降噪模型的工程部署需要考虑因果性,即音频未来信息无法获取,因此在模型选择和设计中需要引入一定的延迟。 在模型部署时,尤其是手机、IOT等移动端的部署,设备的算力和存储空间都会受到限制。因此,在设计模型结构时需要考虑模型结构、算力复杂度和参数量之间的关系。另外,可以通过参数量化和模型输入特征的优化来适配设备。AI降噪模型一般采用有监督的训练方式,并以带噪语音作为模型的输入、纯净语音作为训练的目标。基于频域掩码的AI降噪模型是目前最为常用的设计,但在移动端部署时,受算力影响,基于幅度谱的AI降噪模型可能是最好的选择。在实时音频信号系统中,降噪模型需要考虑到模型的因果性。在实践中,数据库的准备对于自己训练一个AI降噪模型至关重要。 总的来说,AI降噪模型的工程部署需要综合考虑模型结构、算力复杂度、参数量、因果性以及设备适配等因素,以实现在移动端等设备上高效部署。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《搞定音频技术》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(12)

  • 最新
  • 精选
  • Geek_b6a303
    老师,在训练中,对于噪声与纯净声mix时的信噪比该如何把控,每次统一相同的信噪比,还是设置多种信噪比的数据放在一起进行训练?

    作者回复: 信噪比应该是要多样的,一般-6到18dB的常见情况都需要考虑

    2022-03-08
  • pencilCool
    "但只改变相位谱的频域掩码不能做到对纯净语音的完美重建。听感上还是能听出一些不同。" 这里是不是有个typo。 应该是“但**不**改变相位谱的频域掩码不能做到。。。”

    作者回复: 多谢指正

    2022-01-26
  • 坚坚
    老师,请问AI降噪也是和基于统计模型一样具备实时降噪特性吗? 训练后的模型还会根据过程中不同环境,自动调节网络参数吗?

    作者回复: 是的,AI降噪实际上是把不同环境的决策放到了模型里统一考虑,所以实施降噪时面对不同的情况也能自动调整应对。

    2021-12-09
  • ForwardsHao
    老师 在前面介绍常用模型结构的地方,说到了“多层的线性网络”,这个应该是描述不准确的,网络要效果好,重要的是加入了非线性激活函数,单纯的线性函数叠加是不会有逼近任意函数的效果的,也就起不到好的效果的,每一层都不是简单的前一层的加权平均

    作者回复: 是的,激活函数是可以增加模型的非线性处理能力。其实最早的BP network是没有激活函数的所以对某些场景的表现一直不佳。篇幅有限激活函数加还是不加、加什么样的这里就不具体讨论了。

    2021-12-05
  • Geek_7de4c5
    基于频域掩码的 AI 降噪算法能给个demo吗?

    作者回复: https://github.com/xiph/rnnoise,可以看看这个经典的RNNnoise

    2021-12-03
  • 晓龙
    想要什么声音,就可以将目标数据设置成什么声音,例如需要过滤人声,保留音乐声,就将人声+音乐声作为输入,音乐声作为输出,然后经过AI模型,对比目标,求loss,调整AI模型参数,循环往复,直到梯度下降到一个稳定的数值,这个模型就能过滤人声,保留音乐声。 当然以上还设计到很多细节,例如网络选择,声音预处理,语料库等

    作者回复: 回答的不错

    2021-12-03
  • 徐刚
    有AI降噪的工程实践例子吗(从训练到工程落地)方便我们小白更加明白ai降噪的操作流程

    作者回复: 可以用开源的RNNnoise,练个手https://github.com/xiph/rnnoise

    2021-12-03
  • 罗 乾 林
    人声+噪音 -> 人声 人声+音乐+噪声 -> 人声+音乐 音乐+噪声-> 音乐

    作者回复: 大体如是,其实这里的难点是区分音乐和噪声。这个在行业内也是一个难点

    2021-12-03
  • 勿更改任何信息
    请问老师,如果收音的时候有导航声音录进去了,该怎么降噪去除呢
    2023-04-05归属地:北京
  • 刘浩
    AI 降噪模型训练步骤里的第二步: “通过 AI 降噪模型得到估计的纯净语音信号”,那这里说的“AI降噪模型”是怎么来的呢
    2022-10-10归属地:北京
收起评论
显示
设置
留言
12
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部