• 林彦
    2018-03-09
    没怎么用过。如果有个语音助手能协助我听懂和说出别人听不出来的中国各地方言,我肯定会用 😊
    
     2
  • Geek_59
    2020-01-23
    极客时间
    21天打卡行动 36/21
    <<人工智能基础课38>>嘿, Siri:语音处理
    回答老师问题:
    语音处理的最终目的不是简单地分析或者合成声音,而是为了更好地和人交互,从而以更简捷的方式解决问题。从交互的角度来看,你认为目前的语音助手还存在着哪些不足呢?
    前后语意不能交互;如果加上长短期记忆网络或许会好些!
    今日所学 :
    1,语音处理包括语音识别和语音合成两部分;
    2,业界主流的语音合成方法有两种:单元选择和参数合成;
    3,Siri 的语音合成系统包括文本分析、音韵生成、单元选择、波形串联四个模块,前两个环节对应前端的文本处理,后两个环节则对应后端的信号处理;
    4,对于每个目标半音素,维特比算法都可以搜索出一个最优单元序列来合成它,评价最优性的指标包括两条:目标成本和拼接成本。
    5,Siri 的独特之处在于将深度学习应用在了混合单元选择模式中:用基于深度学习的一体化模型代替传统的隐马尔可夫模型指导最优单元序列的搜索,以自动并准确地预测数据库中单元的目标损失和拼接损失;
    6,Siri 使用的技术是深度混合密度网络(Mixture Density Network),这是传统的深度神经网络和高斯混合模型(Gaussian Mixture Model)的组合。
    7,语音识别能够将语音信号转换成对应的文本信息,其系统通常包含预处理、特征提取、声学模型,语言模型和字典解码等几个模块。
    8,与隐马尔可夫模型相比,神经网络的优点在于不依赖对特征统计特性的任何假设,但其缺点则是对时间上的依赖关系的建模能力较差,因而缺乏处理连续识别任务的能力。
    9,不同语言、不同带宽语音数据的神经网络训练可以在同样的框架下进行,其基础是神经网络中特征变换的泛化特性,这使得特征变换的方法不依赖于具体的语言。
    重点:
    1,语音处理可以分为语音识别和语音合成两类任务;
    2,语音合成过程包括文本分析、音韵生成、单元选择、波形串联等步骤;
    3,语音识别过程包括预处理、特征提取、声学模型,语言模型和字典解码等步骤;
    4,深度学习和迁移学习等技术都已经被应用在语音处理之中。
    展开
    
    
  • 风的轨迹
    2018-06-08
    1.包含两种语言单词混合的语音识别效果不好,越专业的词汇效果越不好
    2. 合成语音读小说得效果不好,必须集中精力听才能听懂,其实还是多了一层人工翻译的过程

    作者回复: 总而言之还是不自然,听Siri就能听出来

     1
    
我们在线,来聊聊吧