在18分钟内训练ImageNet,准确率达93%
极客时间编辑部
讲述:丁婵大小:1.13M时长:02:29
近日,由 fast .ai 学员组成的团队在 AWS 实例上,用 18 分钟的时间完成了 Imagenet 训练,计算总成本大约为 40 美元(包括机器配置时间的成本)。
据了解,他们使用了 16 个 AWS 云实例(每个实例使用 8 个英伟达 V100 GPU)来运行 fast .ai 和 PyTorch 库。这一速度打破了在公共基础架构上训练 Imagenet 的 93% 准确率的记录,而且比谷歌的专有 TPU Pod 集群的训练速度快 40%。
据悉,fast .ai 为 DAWNBench 竞赛构建了一个系统,包括用于启动和配置新实例、运行实验、收集结果和查看进展的 Python API。该系统还有一些更有趣的设计:
没有使用配置文件,而是利用 Python API 写代码来配置实验。因此,该团队能够使用循环(loop)、条件句(conditional)来快速设计和运行结构化实验,如超参数搜索。
围绕 tmux 和 ssh 写一个 Python API 封装,并启动 tmux 会话中的所有设置和训练任务。这方便后续登录机器和连接 tmux 会话,以监控进展、修复问题等。
一切从简,该团队没有使用复杂的集群架构(这样的架构需要单独的参数服务器、存储数组、集群管理节点等),而是只使用了具备常规 EBS 存储卷的单个实例类型。
团队介绍,fast. ai 能够在超过 100 万张图像的数据集上进行训练,而且有很多好处,比如:
拥有大型图像库的组织现在可以创建自己的定制化模型,对于高度专业化的图像类型或细粒度分类(如医学成像中常见的),使用大量数据可能会得到更好的结果。
小型研究实验室可以利用不同的架构、损失函数、优化器等进行实验,并在 Imagenet 上进行测试,这也是许多评审人员希望在论文中看到的。
使用标准公共云基础架构,这样开启前沿深度学习研究就不需要前期的成本投入了。
过去 25 年,各种关于“好结果需要大量计算”的言论层出不穷,但是目前,研究人员提出的想法很少是利用大量计算做出的。而通过这个研究,每个人都可以获取到大量计算基础设施,使深度学习变得更平民化。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论