• peter
    2022-08-29 来自北京
    请教老师几个问题: Q1:图像的“频率”是指什么? 文中提到“它利用图像在低频部分的能量分布比较多,在高频比较少这一特点”, 提到了低频、高频,图像的“频率”是指什么? Q2:startCode 部分替换为 NALULength后的效果是什么? 文中的Annex-B部分,有这样一句“如果需要逆方向的格式转换,你也可以自己将 startCode 部分替换为 NALULength”, 替换以后的效果是什么呢? Q3:修改歌词,然后唱出完整的音乐,有这样的软件吗? 比如《可可托海的牧羊人》这首歌,修改歌词以后,还能完整唱出来,有这样的软件吗?(用原声唱,或者用其他声音唱,都可以)。

    作者回复: A1: 高频指的是:图像强度变化剧烈的地方,也就是我们常说的边缘部分;低频值的是:图像强度变换平缓的地方,也就是大片色块的地方;非常经典的一个场景就是磨皮效果器,也叫保边滤波; A2:就是mp4格式的了;如果要写入到mp4文件中去,需要mp4封装格式的H264而不是Annexb格式的H264; A3:目前没有这样的软件吧,因为歌曲生成的歌词是需要详细标注的,标注之后才能有音素的模版,最终才可能按照这个模版结合你的语音模型去生成一个音乐。

    
    