吴十一
2025-06-26
来自上海
1、transformer模型相对其他神经网络模型的技术提升: 引入了自注意力机制,使得句子中每个位置的词表达为整个句子里其他位置的上下文embedding,从而有效捕捉每个位置跟其他位置的长距离依赖,从而可以放弃了RNN结构,解决了长距离依赖问题,提高了并行度和训练速度。 2、GPU的作用: 并行计算深度学习网络中的矩阵计算,提高训练速度 3、通用大语言模型的应用场景: 多轮对话,文本摘要,智能问答,内容(代码)生成,语言翻译 4、大语言模型金融领域的应用场景: 市场分析,风险评估和情感分析等 5、大语言模型的应用受限性: 可解释性,隐私和合规性,安全和信任问题