作者回复: 完全同意。对于高度自动化的 Autonomous Agent 应用来说,对于语音输入 VUI 的要求不高,也不是核心需求,还是以文本和基于文本的语义理解为核心(准确理解用户的目标),所以只需要能把语音输入可靠地转换成文本就好了。