3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放

Databricks 推出开源大模型 DBRX
- 深入了解
- 翻译
- 解释
- 总结

1. Databricks宣布开源通用大模型DBRX,性能超越GPT-3.5,与Gemini 1.0 Pro相比肩。 2. DBRX是基于Transformer的纯解码器大语言模型,使用细粒度的混合专家(MoE)架构,共有132B参数,预训练使用到12T大小的文本与代码数据tokens。 3. DBRX在语言理解、编程和数学方面优于原有开源模型,使用旋转位置编码、门控线性单元和分组查询注意机制,以及GPT-4 token生成器。 4. Databricks使用全套工具开发新数据集,包括Apache Spark、Databricks notebooks、Unity Catalog和MLflow,并通过课程学习进行预训练,改变数据组合以提高模型质量。 5. DBRX在通过3072张英伟达H100上训练而成,历时三个月,构建步骤包括预训练、后训练、评估、红队测试和精炼。 6. Databricks持续开展数学、数据集研究与扩展实验,使用Unity Catalog对训练数据进行管理与治理,采取收购而来的Lilac AI资产探索这些数据。 7. 预训练数据的优化对模型质量产生了重大影响,Databricks使用DBRX预训练数据在1T tokens上训练得出一套7B模型,其在Databricks LLM Gauntlet测试中的得分远高于MPT-7B。 8. 使用混合专家架构能够在模型质量与推理效率之间实现权衡效果,DBRX的质量比LlaMA2-70B更高,推理吞吐量最高可达其2倍。 9. Databricks基础模型API的用户预计可在经过优化的8位精度模型服务平台上,获得每秒最高150 toknes的DBRX推理性能。 10. DBRX Instruct在综合、编程和数学基准以及MMLU等方面表现出色,在标准基准测试中甚至成功超越了所有话语或指令微调模型。
请先领取课程