AI 前线
InfoQ
AI 前线团队
6952 人已学习
免费领取
课程目录
已更新 96 讲/共 1000 讲
AI 前线
15
15
1.0x
00:00/00:00
登录|注册

Karpathy又整活儿了!一天训练出GPT-2、成本还骤降100倍,网友:dream老黄把价格再打下来

OpenAI 创始成员、前研究科学家 Andrej Karpathy 最近尝试在 llm.c 中重现了 GPT-2。这里的 GPT-2 是 15.58B 参数的完整版本,最初亮相于 OpenAI 2019 年 2 月 14 日发布的博文《Better Language Models and their Implications》当中。
“2019 年时,GPT-2 的训练工作还是一个涉及整个团队、需要规模化投入的项目。但如今 5 年过去,随着计算(H100 GPU)、软件(CUDA\cuBLAS、cuDNN、FlashAttention)和数据(例如 FineWeb-Edu 数据集)等层面的改进,我们已经能够在 24 个小时之内凭借单个八 H100 节点成功对该模型进行重现,且总成本仅为 672 美元。”Karpathy 说道。
Karpathy 在 2017 年离职后进入特斯拉担任 AI 高级总监,但在 2023 年再次回到 OpenAI 组建团队,并推出了 ChatGPT。一年后,Karpathy 离开了 OpenAI,并出于教育意义开发了 llm.c。llm.c 是简单、纯 C/CUDA 的 LLM(总计约 5000 行代码),无需使用涉及 Python 解释器或者高复杂度深度学习库(例如 PyTorch/JAX、huggingface/transformers 等)的典型训练技术栈。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. OpenAI的前研究科学家Andrej Karpathy成功在llm.c中重现了GPT-2,训练出15.58B参数的完整版本,并且成本骤降100倍。 2. Karpathy使用简单、纯C/CUDA的llm.c进行GPT-2训练,无需使用Python解释器或高复杂度深度学习库。 3. 使用llm.c训练GPT-2非常灵活,哪怕只有一张GPU,也可以训练出自己的GPT-2,只需等待8天,而如果拥有16张GPU,还可以开展多节点训练,前后只需要等待12个小时。 4. Karpathy公布了GPT-2与新模型的输出结果对比,显示新模型的输出结果相当连贯,质量也大致与GPT-2相当。 5. Karpathy提供了llm.c训练GPT-2的完整说明,包括安装cudnn、MPI,下载数据集,编译和训练过程。 6. 该模型的flops利用率(MFU)约为50%,表现相当高效。 7. Karpathy表示,未来硬件的成本可能会大幅降低,训练时间也会大幅缩短。 8. llm.c也支持多节点训练,最多支持约500张GPU,且可通过Lambda全新一键集群功能实现。 9. Karpathy还尝试用远超33B token的规模训练了GPT-2,结果显示模型在HellaSwag上全面碾压了GPT-2及同等体量的GPT-3,但在后期出现了不稳定性问题。 10. Karpathy让我们看到了更多可能,但这似乎也难以意味着未来整个训练成本会下降。

该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部