3个月砸1000万美元肝出“最强”大模型？黑马Databricks：我们完虐Grok、Llama，还更开放

凌敏

世界最强开源大模型又双叒叕易主了！
Databricks 推出开源大模型 DBRX3 月 27 日，美国 AI 初创公司 Databricks 宣布，该公司 Mosaic Research 团队开发的通用大模型 DBRX 将开源。Databricks 客户可以通过 API 使用 DBRX，从零开始预训练自己的 DBRX 同类模型，或者使用其构建该模型的同款工具和技术在选定的检查点之上继续训练。
据悉，DBRX 的设计灵感来源于 OpenAI 的 ChatGPT。Databricks 表示，它花费了大约 1000 万美元和三个月的时间来训练 DBRX，并声称其“在标准基准上优于所有现有的开源模型”。Databricks 的首席神经网络架构师兼 DBRX 项目负责人 Jonathan Frankle 在确认了测试结果后向团队宣布：“我们已经超越了所有现有模型”。
量化测试结果显示，DBRX 性能已经超越 GPT-3.5，且完全能够与 Gemini 1.0 Pro 相比肩。其推理速度比达到 LlaMa2-70B 的 2 倍；而就总参数量和活动参数量而言，DBRX 的大小约为 Grok-1 的 40%。在被托管于 Mosaic AI Model Serving 上时，DBRX 能够以高达 150 tokens/ 秒 / 用户的速度生成文本。同时，DBRX 也是一套极其强大的编码模型，在编程方面甚至超越了 CodeLlaMa-70B 等专业模型。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

1. Databricks宣布开源通用大模型DBRX，性能超越GPT-3.5，与Gemini 1.0 Pro相比肩。 2. DBRX是基于Transformer的纯解码器大语言模型，使用细粒度的混合专家（MoE）架构，共有132B参数，预训练使用到12T大小的文本与代码数据tokens。 3. DBRX在语言理解、编程和数学方面优于原有开源模型，使用旋转位置编码、门控线性单元和分组查询注意机制，以及GPT-4 token生成器。 4. Databricks使用全套工具开发新数据集，包括Apache Spark、Databricks notebooks、Unity Catalog和MLflow，并通过课程学习进行预训练，改变数据组合以提高模型质量。 5. DBRX在通过3072张英伟达H100上训练而成，历时三个月，构建步骤包括预训练、后训练、评估、红队测试和精炼。 6. Databricks持续开展数学、数据集研究与扩展实验，使用Unity Catalog对训练数据进行管理与治理，采取收购而来的Lilac AI资产探索这些数据。 7. 预训练数据的优化对模型质量产生了重大影响，Databricks使用DBRX预训练数据在1T tokens上训练得出一套7B模型，其在Databricks LLM Gauntlet测试中的得分远高于MPT-7B。 8. 使用混合专家架构能够在模型质量与推理效率之间实现权衡效果，DBRX的质量比LlaMA2-70B更高，推理吞吐量最高可达其2倍。 9. Databricks基础模型API的用户预计可在经过优化的8位精度模型服务平台上，获得每秒最高150 toknes的DBRX推理性能。 10. DBRX Instruct在综合、编程和数学基准以及MMLU等方面表现出色，在标准基准测试中甚至成功超越了所有话语或指令微调模型。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论