Karpathy又整活儿了！一天训练出GPT-2、成本还骤降100倍，网友：dream老黄把价格再打下来

褚杏娟核子可乐

OpenAI 创始成员、前研究科学家 Andrej Karpathy 最近尝试在 llm.c 中重现了 GPT-2。这里的 GPT-2 是 15.58B 参数的完整版本，最初亮相于 OpenAI 2019 年 2 月 14 日发布的博文《Better Language Models and their Implications》当中。
“2019 年时，GPT-2 的训练工作还是一个涉及整个团队、需要规模化投入的项目。但如今 5 年过去，随着计算（H100 GPU）、软件（CUDA\cuBLAS、cuDNN、FlashAttention）和数据（例如 FineWeb-Edu 数据集）等层面的改进，我们已经能够在 24 个小时之内凭借单个八 H100 节点成功对该模型进行重现，且总成本仅为 672 美元。”Karpathy 说道。
Karpathy 在 2017 年离职后进入特斯拉担任 AI 高级总监，但在 2023 年再次回到 OpenAI 组建团队，并推出了 ChatGPT。一年后，Karpathy 离开了 OpenAI，并出于教育意义开发了 llm.c。llm.c 是简单、纯 C/CUDA 的 LLM（总计约 5000 行代码），无需使用涉及 Python 解释器或者高复杂度深度学习库（例如 PyTorch/JAX、huggingface/transformers 等）的典型训练技术栈。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. OpenAI的前研究科学家Andrej Karpathy成功在llm.c中重现了GPT-2，训练出15.58B参数的完整版本，并且成本骤降100倍。 2. Karpathy使用简单、纯C/CUDA的llm.c进行GPT-2训练，无需使用Python解释器或高复杂度深度学习库。 3. 使用llm.c训练GPT-2非常灵活，哪怕只有一张GPU，也可以训练出自己的GPT-2，只需等待8天，而如果拥有16张GPU，还可以开展多节点训练，前后只需要等待12个小时。 4. Karpathy公布了GPT-2与新模型的输出结果对比，显示新模型的输出结果相当连贯，质量也大致与GPT-2相当。 5. Karpathy提供了llm.c训练GPT-2的完整说明，包括安装cudnn、MPI，下载数据集，编译和训练过程。 6. 该模型的flops利用率（MFU）约为50%，表现相当高效。 7. Karpathy表示，未来硬件的成本可能会大幅降低，训练时间也会大幅缩短。 8. llm.c也支持多节点训练，最多支持约500张GPU，且可通过Lambda全新一键集群功能实现。 9. Karpathy还尝试用远超33B token的规模训练了GPT-2，结果显示模型在HellaSwag上全面碾压了GPT-2及同等体量的GPT-3，但在后期出现了不稳定性问题。 10. Karpathy让我们看到了更多可能，但这似乎也难以意味着未来整个训练成本会下降。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论