• Daniel
    2023-03-28 来自北京
    BERT:BERT 基于 Transformer 的(Encoder)。BERT 使用双向(bidirectional)的自注意力机制,可以同时捕捉文本中的前后上下文信息。 GPT:GPT 基于 Transformer 的(Decoder)。GPT 使用单向(unidirectional)的自注意力机制,只能捕捉文本中的前文(left context)信息。 能否请老师详细讲一下,这两者的差别?

    作者回复: BERT是 白日依山尽,_____,欲穷千里目 GPT是 白日依山尽,_____ 一个是完形填空,一个是续写。GPT没法看到后面的东西,所以在很多语义理解的指标上不如BERT。 但是很多真实的使用场景你看不到后面的东西,所以从AGI的路线上,很多人觉得GPT才是正确路径。

    
    39
  • stg609
    2023-03-28 来自浙江
    老师能说说 1. davinci, ada 等模型与gpt3的关系吗? 2. gpt3有1750亿参数,那是不是 ada 也有这么大量的参数

    作者回复: 1. 都是 GPT 家族的模型, ada, babbage, curie, davinci 模型从小到大 2. ada模型应该要小得多,所以便宜

    
    7
  • Roy Liang
    2023-03-27 来自广东
    1. 小数据集验证结果是这样,但是门外汉其实不懂表格里什么意思 precision recall f1-score support negative 0.25 0.99 0.40 136 positive 1.00 0.48 0.65 789 accuracy 0.56 925 macro avg 0.62 0.74 0.52 925 weighted avg 0.89 0.56 0.61 925 2. 可能适合新闻分类、垃圾邮件分类等不关心词语次序的场景吧

    作者回复: 1. 往后看一讲,第5讲里会具体解释这些指标的含义。 2. 对,主题分类不太关注语序

    共 2 条评论
    5
  • Geek_61af67
    2023-03-27 来自北京
    不关心顺序的话,对tags进行分析会不会比较合适?

    作者回复: tags的确不太关注顺序

    
    4
  • qingtama
    2023-04-21 来自北京
    请问老师,这里的2.2亿参数,可以理解成向量所在的维度是2.2亿个吗?

    作者回复: 不能,输出的向量维度没有那么大。 是指所谓的 transformer模型里面的各种变量参数有2.2亿个。

    
    2
  • 王昊翔Harry
    2023-04-04 来自英国
    这一套流程有没有在Colab友好的。本身没有编程经验该怎么着手?

    作者回复: 我在 https://github.com/xuwenhao/geektime-ai-course 放了可以在Colab运行的Notebook代码,只要通过 pip 安装好依赖的包就能够运行。

    
    2
  • HXL
    2023-04-02 来自北京
    还是没明白什么是 预训练模型

    作者回复: 预训练模型,顾名思义,就是“预先训练好的模型” 也就是这个模型,用了别的很多很多数据训练好了。可能和我们现在要解决的问题的数据有关,也有可能没有关系。 但是因为 预训练模型 通常通过海量的数据训练的,它多少对你现在要解决的问题的知识是有了解和帮助的。

    
    2
  • Geek_93970d
    2023-05-12 来自北京
    load_facebook_model 这个函数就得卡好半天,模型文件6.7G,加载很慢。另外 fasttext 既然用的是 gensim 里的,那就不用单独安装了吧?安装也安装不上,PackagesNotFoundError。

    作者回复: pip install fasttext 不行么?

    
    1
  • 摩西
    2023-04-16 来自广东
    刚接触机器学习,基础比较薄弱,请问老师 Transformer 是指什么?这里的transformer 跟 huggingface 中的transformer是相同的内容吗?

    作者回复: transformers 是指一种深度学习的基础模型架构,huggingface的transformers库,相当于为这类模型架构的开发、部署、试用定义了一个通用的接口形式。

    
    1
  • 王石磊
    2023-05-13 来自土耳其
    参考文中的用例,用T5-base 推理的结果如下,准确度为56%,这大概是什么原因呢? precision recall f1-score support negative 0.25 0.99 0.40 136 positive 1.00 0.48 0.65 789 accuracy 0.56 925 macro avg 0.62 0.74 0.52 925 weighted avg 0.89 0.56 0.61 925

    作者回复: 看一下哪里有问题?T5-Base没有那么差,这个看起来像T5-Small乃至更小的模型的结果。

    
    