极客时间-轻松学习，高效学习-极客邦

Daniel
2023-03-28 来自北京
BERT：BERT 基于 Transformer 的（Encoder）。BERT 使用双向（bidirectional）的自注意力机制，可以同时捕捉文本中的前后上下文信息。 GPT：GPT 基于 Transformer 的（Decoder）。GPT 使用单向（unidirectional）的自注意力机制，只能捕捉文本中的前文（left context）信息。能否请老师详细讲一下，这两者的差别？
作者回复: BERT是白日依山尽，_____，欲穷千里目 GPT是白日依山尽，_____ 一个是完形填空，一个是续写。GPT没法看到后面的东西，所以在很多语义理解的指标上不如BERT。但是很多真实的使用场景你看不到后面的东西，所以从AGI的路线上，很多人觉得GPT才是正确路径。
39
stg609
2023-03-28 来自浙江
老师能说说 1. davinci, ada 等模型与gpt3的关系吗？ 2. gpt3有1750亿参数，那是不是 ada 也有这么大量的参数
作者回复: 1. 都是 GPT 家族的模型， ada, babbage, curie, davinci 模型从小到大 2. ada模型应该要小得多，所以便宜
7
Roy Liang
2023-03-27 来自广东
1. 小数据集验证结果是这样，但是门外汉其实不懂表格里什么意思 precision recall f1-score support negative 0.25 0.99 0.40 136 positive 1.00 0.48 0.65 789 accuracy 0.56 925 macro avg 0.62 0.74 0.52 925 weighted avg 0.89 0.56 0.61 925 2. 可能适合新闻分类、垃圾邮件分类等不关心词语次序的场景吧
作者回复: 1. 往后看一讲，第5讲里会具体解释这些指标的含义。 2. 对，主题分类不太关注语序
共 2 条评论
5
Geek_61af67
2023-03-27 来自北京
不关心顺序的话，对tags进行分析会不会比较合适？
作者回复: tags的确不太关注顺序
4
qingtama
2023-04-21 来自北京
请问老师，这里的2.2亿参数，可以理解成向量所在的维度是2.2亿个吗？
作者回复: 不能，输出的向量维度没有那么大。是指所谓的 transformer模型里面的各种变量参数有2.2亿个。
2
王昊翔Harry
2023-04-04 来自英国
这一套流程有没有在Colab友好的。本身没有编程经验该怎么着手？
作者回复: 我在 https://github.com/xuwenhao/geektime-ai-course 放了可以在Colab运行的Notebook代码，只要通过 pip 安装好依赖的包就能够运行。
2
HXL
2023-04-02 来自北京
还是没明白什么是预训练模型
作者回复: 预训练模型，顾名思义，就是“预先训练好的模型” 也就是这个模型，用了别的很多很多数据训练好了。可能和我们现在要解决的问题的数据有关，也有可能没有关系。但是因为预训练模型通常通过海量的数据训练的，它多少对你现在要解决的问题的知识是有了解和帮助的。
2
Geek_93970d
2023-05-12 来自北京
load_facebook_model 这个函数就得卡好半天，模型文件6.7G，加载很慢。另外 fasttext 既然用的是 gensim 里的，那就不用单独安装了吧？安装也安装不上，PackagesNotFoundError。
作者回复: pip install fasttext 不行么？
1
摩西
2023-04-16 来自广东
刚接触机器学习，基础比较薄弱，请问老师 Transformer 是指什么？这里的transformer 跟 huggingface 中的transformer是相同的内容吗？
作者回复: transformers 是指一种深度学习的基础模型架构，huggingface的transformers库，相当于为这类模型架构的开发、部署、试用定义了一个通用的接口形式。
1
王石磊
2023-05-13 来自土耳其
参考文中的用例，用T5-base 推理的结果如下，准确度为56%，这大概是什么原因呢？ precision recall f1-score support negative 0.25 0.99 0.40 136 positive 1.00 0.48 0.65 789 accuracy 0.56 925 macro avg 0.62 0.74 0.52 925 weighted avg 0.89 0.56 0.61 925
作者回复: 看一下哪里有问题？T5-Base没有那么差，这个看起来像T5-Small乃至更小的模型的结果。