38 | 大规模数据处理在深度学习中如何应用？

蔡元楠



该思维导图由 AI 生成，仅供参考

你好，我是蔡元楠。
今天我要与你分享的主题是“大规模数据处理在深度学习中如何应用？”。
“深度学习”这个词，既是一个人工智能的研究领域，也概括了构建人工神经网络的技术方法。2012 年的 AlexNet，2015 年的 Google Inception V3 级数式地打破 ImageNet 计算机视觉比赛的最高纪录，2017 年亮相的 AlphaGo 更是掀起了全球的深度学习风暴。
在 Google，深度学习系统被应用在预测广告的点击率、推荐用户可能喜爱的视频、生成更接近人类的机器发声、自动生成邮件回复等几乎所有产品线。
很多人并不理解深度学习技术，我经常见到这样几种误区：
觉得深度学习是最近几年才兴起的技术；
觉得深度学习只是一个技术时髦（就像今年流行 Python，明年流行 Go 语言一样）；
觉得深度学习只是算法模型。
要打破这些误区，我们必须深刻地理解超大规模数据在深度学习的发展中到底扮演了一个怎样的角色。
大规模数据在深度学习发展中扮演的角色事实上，类似于模拟神经网络的计算机方法早在 20 世纪 60 年代就被提出来了。
当时通信领域大神香农也在神经网络领域有所涉猎。但是在 60 年代到 90 年代的几十年间，深度学习虽然想法新颖、听起来很好，但是在实际上，人们发现以当时的计算能力根本没法训练神经网络。反而是像决策树，SVM 等非神经网络的方法大放异彩。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

深度学习在人工智能领域的重要性日益凸显，而大规模数据处理在深度学习中扮演着关键角色。本文从技术发展背景出发，阐述了大规模数据对深度学习发展的重要性。文章指出，大规模数据的可获得性和强大的计算能力推动了深度学习的爆发性发展。此外，文章还介绍了深度学习驱动产品周期中大规模数据处理技术的应用，包括数据搜集整理、深度学习模型开发、部署和测试、以及数据闭环反馈优化。总的来说，本文强调了大规模数据处理在深度学习中的关键作用，为读者提供了对深度学习技术发展的全面认识。在深度学习模型开发阶段，数据处理是至关重要的。分析样本数据的分布比例以及设计模型架构都需要大规模数据处理能力。在部署和测试深度学习模型时，需要构建数据处理流水线来处理大规模数据，例如广告点击率预测模型的批处理问题。而在深度学习产品上线后，大规模数据处理技术仍然至关重要，用于评估模型效果、追踪用户行为并不断优化模型。总的来说，本文强调了大规模数据处理在深度学习中的关键作用，为读者提供了对深度学习技术发展的全面认识。深度学习的发展离不开大规模数据处理技术的支持，这一点在文章中得到了充分的阐述。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大规模数据处理实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(2)

最新
精选

Geek_662056
请教一个问题，大规模数据处理平台往往以JVM语言构建，而深度学习模型一般又是基于python开发，目前google beam对于python在spark,flink runner也支持有限，请问你们有没有遇到过类似的问题，您觉得该如何处理该问题呢
作者回复: 这样多语言的工作环境工作中很正常也逃不过，可以看看比如swig这种挂语言编译工具
2019-08-19
2
3
RussellSN
ML的三要素：模型、算法、策略。因为模型、算法的复杂度或者数学特征较浓，导致大多数并未深入理解ML的把复杂度都归因为数学复杂度上。而ML真正能发挥作用的其他关键要素，如Big Data Sample的处理对于获得正确的模型、选择合适的算法和策略是至关重要的并未得到应有的重视。如果能从这个角度去描述，能够把这个命题会讲的更清楚。结合ML的结构化本质来讲解对大数据处理的本质诉求，才能更好的说明大数据技术是ML成功的基石。
2019-10-23

8

收起评论