• vcjmhg
    2021-12-09
    1.截断法 截断法是非常常用办法,大致分为三种,head截断,tail截断,head+tail 截断。 head截断即从文本开头直到限制的字数。 tail截断是从结尾开始往前截断。 head+tail 截断,开头和结尾各保留一部分,比例参数是一个可以调节超参数。 缺点:处理方法较为暴力,不是太长的文本 2.Pooling法,缺点性能较差 3.压缩法,提取文本中有限segment,但压缩效果可能会很有限。

    作者回复: 👍🏻👍🏻👍🏻👍🏻^^

    
    3
  • Qwen
    2022-09-08 来自北京
    才入行新人,文章读了好几遍,还有很多问题点不能理解。 希望大佬能否考虑整理一份完整的训练代码,在参照您的文档去理解,应该能帮助到很多像我这样的新人。

    作者回复: 你好,感谢你的留言。图像的课程有整理好的代码。链接在文章里。

    
    2
  • (●—●)
    2022-03-26
    请问怎么转换模型?

    作者回复: 你好,不好意思,没太看明白。 转什么模型?从哪里转?

    共 3 条评论
    1
  • Geek_1e9742
    2023-04-04 来自江苏
    你文章里的多语言bert模型的链接已经失效不能使用了

    编辑回复: 链接已更新,刷新可见

    
    
  • 亚林
    2022-06-07
    预训练模型地址失效了: https://github.com/google-research/bert/blob/master/multilingual.md

    作者回复: hi,没有失效,可能是你的网络问题

    
    
  • 亚林
    2022-06-02
    上一节提到的pipelines能否解决长文本的办法

    作者回复: hello pipelines不是解决长文本问题的。

    
    
  • Geek_709f77
    2022-04-15
    “转换完模型之后,你会发现你的本地多了三个文件”这个转换完成模型是怎么做的?另外,老师给的链接有的打开后跟文章中内容不一样,代码下载也不对,能不能把所有代码放在一个地方,让我们下载运行?

    作者回复: 你好,感谢你的留言。 模型的转换需要transformers中提供的convert_tf_checkpoint_to_pytorch.py 文件的帮忙,具体的使用方法会随着版本的更新而有所不同,但是好在用法都在该文件的main函数中进行了介绍。你可以看一下。 链接与文章中内容不一样的问题,我刚才看了一下git中的代码,他三天前更新了。 按照文章中的流程,代码基本都是可以实现的^^。

    
    
  • 向坤
    2022-04-13
    请问有完整的训练代码链接吗

    作者回复: 你好,向坤,感谢你的留言。 按照文章里的一步步来就是可以运行的。

    
    
  • xiaolan
    2022-01-24
    请问bert模型的用处是不是跟word2vec一样?

    作者回复: hello,感谢留言。 他们不一样。可以一样用,但是bert更强大,还有别的功能。

    
    
  • Beyond myself
    2023-08-27 来自广东
    convert_BERT_original_tf2_checkpoint_to_PyTorch.py 和 modeling_BERT.py两个文件不存在了,全局搜索BERTForSequenceClassification也没有找不到。
    
    