Ayaya
老师, 你在 6min20s 讲解 Dataset 的时候提到
“在每次 iteration 的时候, 再去重新对它进行分词, 然后对它做对应的如 token 一样的操作, 比如我运行成0, 然后你又运行成1这样的操作”, 这里有点不太能理解.
这里“重新”是指每次 iteration 都采用不同的分词和 token 方法吗? 还是说在原始数据上加入额外的处理? 因为我接触 NLP 时间较短, 不知道这样的做法有哪些实用场景, 所以就希望老师能举一个小例子讲解一下.
作者回复: 这里字幕有一些问题。但是实际意思就是说我为了尽可能节省显存和内存,我直接通过文件IO的方式做循环。这样的确节省了存储但运算效率就很糟糕了