• Nim
    2025-04-06 来自广东
    单独的语音语言模型产品:更加专注语言转换为文本,转换需要的相对资源更低,延迟更低,但也会局限于语言处理,后续在图像和视频多模态的拓展上比较难,且分析上下文相较于多模态LLM较少。 多模态LLM产品:丰富的多模态上下文,助力更好理解语义,且应用场景更广泛,后续拓展更加自然;相对的,确定是技术复杂,需要的资源多,且延迟和幻觉问题,都可能影响体验。

    作者回复: 完全同意。对于高度自动化的 Autonomous Agent 应用来说,对于语音输入 VUI 的要求不高,也不是核心需求,还是以文本和基于文本的语义理解为核心(准确理解用户的目标),所以只需要能把语音输入可靠地转换成文本就好了。

    
    