极客时间-轻松学习，高效学习-极客邦

Nim
2025-04-06 来自广东
单独的语音语言模型产品：更加专注语言转换为文本，转换需要的相对资源更低，延迟更低，但也会局限于语言处理，后续在图像和视频多模态的拓展上比较难，且分析上下文相较于多模态LLM较少。多模态LLM产品：丰富的多模态上下文，助力更好理解语义，且应用场景更广泛，后续拓展更加自然；相对的，确定是技术复杂，需要的资源多，且延迟和幻觉问题，都可能影响体验。
作者回复: 完全同意。对于高度自动化的 Autonomous Agent 应用来说，对于语音输入 VUI 的要求不高，也不是核心需求，还是以文本和基于文本的语义理解为核心（准确理解用户的目标），所以只需要能把语音输入可靠地转换成文本就好了。