Karpathy又整活儿了!一天训练出GPT-2、成本还骤降100倍,网友:dream老黄把价格再打下来
褚杏娟 核子可乐

OpenAI 创始成员、前研究科学家 Andrej Karpathy 最近尝试在 llm.c 中重现了 GPT-2。这里的 GPT-2 是 15.58B 参数的完整版本,最初亮相于 OpenAI 2019 年 2 月 14 日发布的博文《Better Language Models and their Implications》当中。
“2019 年时,GPT-2 的训练工作还是一个涉及整个团队、需要规模化投入的项目。但如今 5 年过去,随着计算(H100 GPU)、软件(CUDA\cuBLAS、cuDNN、FlashAttention)和数据(例如 FineWeb-Edu 数据集)等层面的改进,我们已经能够在 24 个小时之内凭借单个八 H100 节点成功对该模型进行重现,且总成本仅为 672 美元。”Karpathy 说道。
Karpathy 在 2017 年离职后进入特斯拉担任 AI 高级总监,但在 2023 年再次回到 OpenAI 组建团队,并推出了 ChatGPT。一年后,Karpathy 离开了 OpenAI,并出于教育意义开发了 llm.c。llm.c 是简单、纯 C/CUDA 的 LLM(总计约 5000 行代码),无需使用涉及 Python 解释器或者高复杂度深度学习库(例如 PyTorch/JAX、huggingface/transformers 等)的典型训练技术栈。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. OpenAI的前研究科学家Andrej Karpathy成功在llm.c中重现了GPT-2,训练出15.58B参数的完整版本,并且成本骤降100倍。 2. Karpathy使用简单、纯C/CUDA的llm.c进行GPT-2训练,无需使用Python解释器或高复杂度深度学习库。 3. 使用llm.c训练GPT-2非常灵活,哪怕只有一张GPU,也可以训练出自己的GPT-2,只需等待8天,而如果拥有16张GPU,还可以开展多节点训练,前后只需要等待12个小时。 4. Karpathy公布了GPT-2与新模型的输出结果对比,显示新模型的输出结果相当连贯,质量也大致与GPT-2相当。 5. Karpathy提供了llm.c训练GPT-2的完整说明,包括安装cudnn、MPI,下载数据集,编译和训练过程。 6. 该模型的flops利用率(MFU)约为50%,表现相当高效。 7. Karpathy表示,未来硬件的成本可能会大幅降低,训练时间也会大幅缩短。 8. llm.c也支持多节点训练,最多支持约500张GPU,且可通过Lambda全新一键集群功能实现。 9. Karpathy还尝试用远超33B token的规模训练了GPT-2,结果显示模型在HellaSwag上全面碾压了GPT-2及同等体量的GPT-3,但在后期出现了不稳定性问题。 10. Karpathy让我们看到了更多可能,但这似乎也难以意味着未来整个训练成本会下降。
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论