张申傲
2024-06-20
来自北京
第10讲打卡~ 思考题:主流的大语言模型没有采用RNN,而是采用了Transformer,主要是因为RNN没法处理长序列。由于文中提到的梯度消失和梯度爆炸等问题,RNN模型没法捕捉到距离较远的文本之间的依赖关系,但是这并不符合人类的语言习惯。比如这样一段话:"我喜欢旅行,并不喜欢上班,因为这能让我感受到自由",里面的"这"实际上指代的是"旅行",而并不是距离它更近的"上班"。
1
头发乱了
2024-06-20
来自安徽
独行老师,提个建议哈,示例代码可以换成pytorch吗?