23｜模型核心技术指标：如何提高上下文长度？

独行

你好，我是独行。
这节课我会给你介绍大模型中非常重要的一个技术指标：上下文长度。我们知道，AI 问答类产品和传统问答类产品，在使用层面上有一个很重要的区别就是上下文，AI 问答产品可以根据上下文进行更加深层次的问答，给我们的感觉就是很智能，很人性化。
前阵子非常火的 AI 问答产品 Kimi，就是以超长上下文著称，比如支持 200 万字长文本输入，一次性输入几本书，可以准确进行内容整理输出；再比如 GPT-4-turbo，支持 128K 上下文长度，还有像 6B，最新版本已经支持 32K 上下文长度。
以前各大厂商在宣传自己的产品的时候，讲的最主要的一方面就是参数规模，现在除了参数规模，还经常提的就是支持的上下文长度，所以业界有人笑称，大模型卷完参数，开始卷上下文了。今年 3 月份，阿里云通义千问已经将上下文长度直接提升至 1000 万字，是 Kimi 的 5 倍，而且免费提供给客户使用，一下子卷到了极致。
那么为什么大厂都开始卷上下文长度了呢？
为什么超长上下文很重要？用 Kimi 所在公司月之暗面（Moonshot）的创始人杨植麟的话说，Lossless long context is everything，杨植麟判断 AI 产品的终极价值是提供个性化的交互，⽽lossless long-context 是实现这⼀点的基础。模型的微调不应该⻓期存在， 用户跟模型的交互历史就是最好的个性化过程。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 上下文长度对AI问答产品的智能和人性化表现具有重要影响，是大型语言模型的重要技术指标。 2. 上下文长度的提升是大厂商在宣传产品时的重点之一，对于实现个性化交互具有基础性意义。 3. 大型语言模型的最高水平由单步骤容量和执行的步骤数决定，上下文长度的增加同样重要。 4. 计算资源限制、内存消耗和宽带限制是导致上下文限制的核心原因。 5. 支持更长上下文的方法包括稀疏注意力机制、滑动窗口和降采样，但可能牺牲模型性能。 6. 在模型训练方面，采用了多项基于Seqence维度的并行策略，Flash Attention、Fuse Cross Entropy、CPU offload等技术降低了显存压力。 7. 在模型推理方面，采用了GQA替换MHA、2Paged attention、低比特量化、MoE & KVCache裁减等策略，提高了推理速度和显存利用率。 8. 超长上下文测试中发现，大模型的效果受Prompt和内容的影响，以及对模型提问的Prompt写得是否足够明确。 9. 超长上下文会带来注意力机制计算量的增加，需要思考如何计算出计算量的增加。 These key points summarize the importance of context length in AI question-answering products, the limitations and methods to support longer context, as well as the strategies used in model training and inference. Additionally, it highlights the impact of prompts and content on the effectiveness of large models in handling ultra-long contexts and the need to consider the increase in attention mechanism computation.

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型实战高手课》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论