极客时间-轻松学习，高效学习-极客邦

vcjmhg
2021-12-09
1.截断法截断法是非常常用办法，大致分为三种，head截断，tail截断，head+tail 截断。 head截断即从文本开头直到限制的字数。 tail截断是从结尾开始往前截断。 head+tail 截断，开头和结尾各保留一部分，比例参数是一个可以调节超参数。缺点:处理方法较为暴力，不是太长的文本 2.Pooling法，缺点性能较差 3.压缩法，提取文本中有限segment，但压缩效果可能会很有限。
作者回复: 👍🏻👍🏻👍🏻👍🏻^^
3
Qwen
2022-09-08 来自北京
才入行新人，文章读了好几遍，还有很多问题点不能理解。希望大佬能否考虑整理一份完整的训练代码，在参照您的文档去理解，应该能帮助到很多像我这样的新人。
作者回复: 你好，感谢你的留言。图像的课程有整理好的代码。链接在文章里。
2
(●—●)
2022-03-26
请问怎么转换模型？
作者回复: 你好，不好意思，没太看明白。转什么模型？从哪里转？
共 3 条评论
1
Geek_1e9742
2023-04-04 来自江苏
你文章里的多语言bert模型的链接已经失效不能使用了
编辑回复: 链接已更新，刷新可见
亚林
2022-06-07
预训练模型地址失效了： https://github.com/google-research/bert/blob/master/multilingual.md
作者回复: hi，没有失效，可能是你的网络问题
亚林
2022-06-02
上一节提到的pipelines能否解决长文本的办法
作者回复: hello pipelines不是解决长文本问题的。
Geek_709f77
2022-04-15
“转换完模型之后，你会发现你的本地多了三个文件”这个转换完成模型是怎么做的？另外，老师给的链接有的打开后跟文章中内容不一样，代码下载也不对，能不能把所有代码放在一个地方，让我们下载运行？
作者回复: 你好，感谢你的留言。模型的转换需要transformers中提供的convert_tf_checkpoint_to_pytorch.py 文件的帮忙，具体的使用方法会随着版本的更新而有所不同，但是好在用法都在该文件的main函数中进行了介绍。你可以看一下。链接与文章中内容不一样的问题，我刚才看了一下git中的代码，他三天前更新了。按照文章中的流程，代码基本都是可以实现的^^。
向坤
2022-04-13
请问有完整的训练代码链接吗
作者回复: 你好，向坤，感谢你的留言。按照文章里的一步步来就是可以运行的。
xiaolan
2022-01-24
请问bert模型的用处是不是跟word2vec一样？
作者回复: hello，感谢留言。他们不一样。可以一样用，但是bert更强大，还有别的功能。
Beyond myself
2023-08-27 来自广东
convert_BERT_original_tf2_checkpoint_to_PyTorch.py 和 modeling_BERT.py两个文件不存在了，全局搜索BERTForSequenceClassification也没有找不到。