作者回复: 开发用langchain,微调用llama factory。 在held in的数据集上目前大概是85%,我们现在还在精进,目测还可以用提升空间到90%,能力可能接近GPT4.o。但是测试的标准目前比较简单,如果复杂场景会降低,这个尝试现在还是很前沿的,也还在很快的演进