作者回复: 👍
作者回复: 可以的啊,但是要考虑 1. 成本 2. 效果 在有标注数据的情况下,机器学习的效果通常比让ChatGPT只用先验知识效果还是要好不少的。
作者回复: 读一遍API文档,读一遍OpenAI Cookbook。这是看起来最笨,其实最节约时间的办法。
作者回复: 看一下github的README里给了一个百度网盘的下载方式 对应的数据文件比较大,GitHub里直接放也不太方便下载
作者回复: 看最新上线的10,11讲,以及后面会上线的14-17讲
作者回复: 👍
作者回复: 👍 我本机是默认会退回到用python引擎来分割,感谢。
作者回复: 看了一下的确是可以不用的。原来是想做成两层batch_size的,就是1000个batch扔给get_embeddings_with_backoff,然后里面再100个一个batch这样,不过后来发现没有必要。
作者回复: 我没有试过,你可以试一下,如果有结果欢迎分享。我猜如果一般人能判断出来,它就能判断出来。
作者回复: 可以认为,就是把文本,用一组数字来表示,这组数字表示了这段文本在高维空间里面的坐标。两段文本相似,就是他们坐标之间比较近。