极客时间-轻松学习，高效学习-极客邦

孙稚昊

2019-04-29

我们的用户画像本质还是批处理，还不能做到实时更新每个人的 profile，但对用户的每次电机有一个实时的劣化推荐版本，就是根据session中点的几个item的click，找到它们的simiiar item，这个是通过cache 和API实现的，并不是实时数据处理

作者回复: 谢谢你的分享！



 8
xzy

2019-04-30

既有批处理也有流处理，生产环境利用elasticsearch来存储监控数据、日志数据等。为了降低成本和查询速度，会按照小时、天粒度对历史数据做预聚合，这应该属于批处理。其次，es作为搜索引擎，用户也有实时查询的需求，这块应该属于流处理。谢谢

作者回复: 谢谢你的分享！



 7
mini希

2019-04-29

数仓有没有准实时的解决方案呢？



 7
hua168

2019-04-30

老师，上面说流数据是在没到达磁盘之前就处理了，所以速度很快，但是如果那处软件挂了，那部分流数据不是丢失了吗？是不是不能处理重要的数据？
如果我的数据很重要，但是又想像流那样处理的快速怎办？像redis那样，使用持久化，边处理写延迟写及磁盘这种处理思想吗？还是其它？

作者回复: 谢谢你的提问！数据如果没有保存到磁盘的话，确实整个软件挂了所有数据就丢失了。不过流处理一样可以处理重要数据的。一般即使数据存在内存中，有的软件会定时将数据的snapshot保存到磁盘中，以防软件全部挂掉。而很多软件都会有data replica，而且会有N+1或者N+2的policy，以此来保证如果有其中一台机器上的软件挂了，另外一台机器可以顶替它。

一般全部机器都挂的情况非常少见，这就如同存在磁盘上的数据被人运行“rm -fR /”一样，所以在采用流处理的时候不必过于担心。



 6
yangs

2019-04-29

老师您好，之前看到网上说flink实现的流处理和spark streaming不一样，是因为spark使用了微批处理模拟流处理，可是我觉得flink实现的原理也像是用批处理模拟流处理，将一段一段数据包裹在时间窗口里来实现，这个时间窗口的数据处理，可不可以也理解成为是批处理？

作者回复: 可以



 5
邱从贤※klion26

2019-04-29

有限流是无限流的一个特例，所以一直在想是不是未来不再需要批处理，所有的都可以流处理，从而达到真正的流批一体。

从现在的情况看，批处理主要用于分析，用 sql 较多，且会对多个表进行处理，是不是意味着流上的 sql 也是刚需。

线下批处理能够不停重算的特性，应该可以让流处理不停做 checkpoint 来支持，这样是不是就和 db 的 backup 就有点像了，那是不是最后流处理，批处理，数据库也会统一起来呢？

作者回复: 谢谢你的留言！我很认同你的观点，关于流处理和批处理未来应该会统一起来。数据库作为存储系统的话还是会单独存在的吧。



 4
JohnT3e

2019-04-29

一般业务中都会涉及到实时处理和批处理的需求，现在采取的类似于Kappa的架构。

Kappa Architecture: http://milinda.pathirage.org/kappa-architecture.com/
Samba Architecture: http://lambda-architecture.net/



 2
涵

2019-04-29

在实际工作中数据仓库的数据处理使用的是批处理，根据需要大多数据是日处理，个别数据是一天处理几次，但都是批处理。在做核心业务系统时使用的是流数据处理，通常用消息中间件来传递事件，接收到事件时即开始处理。一直想尝试的是通过日志信息抽取业务信息，实现对业务信息的实时分析，例如当日的实时交易笔数，交易额等，无需侵入核心业务系统，通过日志即可以流数据的形式实时传递给数据平台。了解过splunk,elasticsearch都可以做，但是不清楚哪个更好，或者有其他更好的选择。

作者回复: 谢谢你的经验分享！赞一个！



 2
小凡

2019-05-18

请问spring-batch和hadoop这类批处理框架有什么不同吗？还有spring data flow



 1
slowforce

2019-05-09

我们接收现场设备发回来的数据，数据以email或者sftp的形式上传或者以自定义的格式通过socket直接传。对于前一种情况，我们采取批处理的方式定时去处理，而对于第二种情况我认为就是流处理

作者回复: 谢谢你的分享！



 1
越甲非甲

2019-05-07

目前我们做的流处理场景下的解决方案，都是控制较小时间窗口的批处理，通过累加类似的方案来实现近似流处理的效果。请问老师，流处理的更一般性的解决思路是什么样子的呢？是这种微批处理的路子吗？谢谢老师！



 1
CoderLean

2019-05-04

Flink的本质就是流处理，而里面的批处理api底层是将时间或者个数设定在某个区域里面，可以认为在这个架构中批处理是流处理的一个特例，我看有的评论说反了。说明还没好好掌握flink

作者回复: 赞一个大牛的留言啊！



 1
每天晒白牙

2019-04-29

产生特定格式和维度的报表数据一般是批处理，但实时报表是流处理，需要低延迟

作者回复: 谢谢你的分享！



 1
李鹏

2019-09-11

实时处理我的理解是session保持，而不是仅仅因为毫秒就是实时处理。例如，voip




王蒙

2019-07-09

我个人也是比较赞同 DataFlow 模型的思想的，认为批是流的一个特例，未来的计算不会再明显区分到底是流还是批，但不能排除除一些特殊情况（毕竟当前的批计算引擎针对批的场景做了大量的优化，通用系统的性能肯定是赶不上专用系统的），但计算不仅仅是批和流两种形态，还有复杂计算场景，比如现在的 TensorFlow（AI 框架的本质也是计算）、RAY 等，计算引擎最后会不会完全融合到一起呢？或者换个思路，一个引擎可以兼容所有的引擎（有点类似 Beam），在一个计算框架里，可以跑多个 runner（这个 runner 可以是不同的引擎），未来会不会是这样的呢？




风中花

2019-06-25

看到老师有设专栏讲fink的想法！有点期待哦




Echo💯

2019-06-21

由spark中的流式表处理 structured-streaming来说，就是针对批处理来对数据进行一段时间一批一批的处理，但是structured-streaming里针对的是连接kafka中的数据，是针对事件时间来处理的，而不是处理时间，所以就是structured-streaming是针对事件时间的批处理计算，谢谢。

作者回复: 谢谢你的分享！




西北偏北

2019-06-14

有界数据是无界数据的一个子集

对实时性要求很高的无界数据处理，需要使用流失处理技术

对数据进行挖掘深沉挖掘的数据处理，需要使用批处理技术，其时延相对较高




天下行走

2019-06-04

很棒，项目中流批处理都用到了，不过没有用成熟的组件，是自己项目写的处理框架，根据lamda架构思想来实现的；
当数据是永无止境的事件流时，使用流处理，记下了

作者回复: 谢谢你的分享！我觉得你能自己写出一个处理架构出来也是很牛的，继续加油！




Zoe

2019-05-29

老师，突然想到一个小问题。比如说我有一个系统会源源不断的产生log，我把log按小时写进不同文件里。这个过程我可以理解为是流处理，对吗？但当我需要再对log进行其他分析时，我很有可能需要读取不同时间的log文件，再进行一个可能好几个小时的处理，这个过程就可以视为批处理？虽然数据有可能也是以数据流的形式从文件中读取进来的？



