作者回复: 当你得到了模型的返回结果之后,模型就自动停止了,这好像SaaS一样。模型给你提供的是云端服务。本地模型也是一样。随着你的调用结束,模型就不再一直倾听你了,因此,模型自己没有Memory!它不是一个一直侦听响应的进程,没有状态。这就是为什么,我们在应用程序设计的时候,要增加Memory这个内容,你可以把Memory视为记忆或者内存。 对于模型调用来说,它在乎的是你一次Pass给他多少个Token,以及你一分钟调用它多少次。太多Token不行,过多次也不行。