作者回复: BERT是 白日依山尽,_____,欲穷千里目 GPT是 白日依山尽,_____ 一个是完形填空,一个是续写。GPT没法看到后面的东西,所以在很多语义理解的指标上不如BERT。 但是很多真实的使用场景你看不到后面的东西,所以从AGI的路线上,很多人觉得GPT才是正确路径。
作者回复: 1. 都是 GPT 家族的模型, ada, babbage, curie, davinci 模型从小到大 2. ada模型应该要小得多,所以便宜
作者回复: 1. 往后看一讲,第5讲里会具体解释这些指标的含义。 2. 对,主题分类不太关注语序
作者回复: tags的确不太关注顺序
作者回复: 不能,输出的向量维度没有那么大。 是指所谓的 transformer模型里面的各种变量参数有2.2亿个。
作者回复: 我在 https://github.com/xuwenhao/geektime-ai-course 放了可以在Colab运行的Notebook代码,只要通过 pip 安装好依赖的包就能够运行。
作者回复: 预训练模型,顾名思义,就是“预先训练好的模型” 也就是这个模型,用了别的很多很多数据训练好了。可能和我们现在要解决的问题的数据有关,也有可能没有关系。 但是因为 预训练模型 通常通过海量的数据训练的,它多少对你现在要解决的问题的知识是有了解和帮助的。
作者回复: pip install fasttext 不行么?
作者回复: transformers 是指一种深度学习的基础模型架构,huggingface的transformers库,相当于为这类模型架构的开发、部署、试用定义了一个通用的接口形式。
作者回复: 看一下哪里有问题?T5-Base没有那么差,这个看起来像T5-Small乃至更小的模型的结果。