英伟达发布推理专用GPU Tesla T4
极客时间编辑部
讲述:杜力大小:1.16M时长:02:32
最近,英伟达发布了推理专用 GPU Tesla T4 加速器,性能比 CPU 高 40 倍。
Tesla T4 基于“图灵”GPU 架构,该架构是在今年夏天早些时候推出的,用于 GeForce RTX 和 Quadro RTX 卡,可以通过机器学习算法增强动态射线跟踪。与专注于 HPC 和机器学习训练的“Volta” GV100 GPU 一样,Tesla T4 加速器使用的图灵 GT104 GPU 拥有 136 亿个晶体管,接近于 Pascal GP100 GPU 的 153 亿个晶体管,但是仍然落后于 GV100 GPU 的 211 亿个晶体管。
据悉,Tesla T4 上的芯片包含了 2560 个 CUDA 内核,具有 32 位单精度和 16 位半精度浮点数学单元(FP32 和 FP16),以及 8 位和 4 位整数数学单元(INT8 和 INT4)。
Volta GV100 上的 FP64 数学单元不在图灵架构中,但是,如果真的想在 Tesla T4 上进行机器学习训练,并且没有使用需要 FP64 的框架,那么这样也是可行的,但是这并不是这个设备的设计考虑点,因为它在内存容量和带宽方面有所限制。
具体而言,Tesla T4 配备了用于计算的 16 GB GDDR6 帧缓冲内存,并提供了 320 GB/ 秒的内存带宽。GT104 GPU 有 320 Tensor Core,可以用于执行机器学习中常用的矩阵运算。
不过,这比 Volta GV100 GPU 的配置要低得多,后者包含了 5376 个 32 位整数内核、5376 个 32 位浮点内核,2688 个 64 位内核、672 个 Tensor 内核和 336 个跨 84 个流式多处理器(SM)的纹理单元。在生产 GV100 时,84 个 SM 中只有 80 个被激活,这样才能保证足够的良品率,因为要启用所有 84 个 SM 就很难获得完美的芯片。
GT104 GPU 的不同之处在于,它支持 INT8 和 INT4 格式的张量核心单元,这会让数据量翻倍或翻两倍,也会让整数单元的处理吞吐量加倍或翻两倍。
据介绍,Tesla T4 将于第四季度上市,谷歌表示,将会在自家的云平台上使用这些设备,就像上一代 Tesla P4 加速器一样。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论