• 孙稚昊
    2019-04-29
    我们的用户画像本质还是批处理,还不能做到实时更新每个人的 profile,但对用户的每次电机有一个实时的劣化推荐版本,就是根据session中点的几个item的click,找到它们的simiiar item,这个是通过cache 和API实现的,并不是实时数据处理

    作者回复: 谢谢你的分享!

    
     8
  • xzy
    2019-04-30
    既有批处理也有流处理,生产环境利用elasticsearch来存储监控数据、日志数据等。为了降低成本和查询速度,会按照小时、天粒度对历史数据做预聚合,这应该属于批处理。其次,es作为搜索引擎,用户也有实时查询的需求,这块应该属于流处理。 谢谢

    作者回复: 谢谢你的分享!

    
     7
  • mini希
    2019-04-29
    数仓有没有准实时的解决方案呢?
    
     7
  • hua168
    2019-04-30
    老师,上面说流数据是在没到达磁盘之前就处理了,所以速度很快,但是如果那处软件挂了,那部分流数据不是丢失了吗?是不是不能处理重要的数据?
        如果我的数据很重要,但是又想像流那样处理的快速怎办?像redis那样,使用持久化,边处理写延迟写及磁盘这种处理思想吗?还是其它?

    作者回复: 谢谢你的提问!数据如果没有保存到磁盘的话,确实整个软件挂了所有数据就丢失了。不过流处理一样可以处理重要数据的。一般即使数据存在内存中,有的软件会定时将数据的snapshot保存到磁盘中,以防软件全部挂掉。而很多软件都会有data replica,而且会有N+1或者N+2的policy,以此来保证如果有其中一台机器上的软件挂了,另外一台机器可以顶替它。

    一般全部机器都挂的情况非常少见,这就如同存在磁盘上的数据被人运行“rm -fR /”一样,所以在采用流处理的时候不必过于担心。

    
     6
  • yangs
    2019-04-29
    老师您好,之前看到网上说flink实现的流处理和spark streaming不一样,是因为spark使用了微批处理模拟流处理,可是我觉得flink实现的原理也像是用批处理模拟流处理,将一段一段数据包裹在时间窗口里来实现,这个时间窗口的数据处理,可不可以也理解成为是批处理?

    作者回复: 可以

    
     5
  • 邱从贤※klion26
    2019-04-29
    有限流是无限流的一个特例,所以一直在想是不是未来不再需要批处理,所有的都可以流处理,从而达到真正的流批一体。

    从现在的情况看,批处理主要用于分析,用 sql 较多,且会对多个表进行处理,是不是意味着流上的 sql 也是刚需。

    线下批处理能够不停重算的特性,应该可以让流处理不停做 checkpoint 来支持,这样是不是就和 db 的 backup 就有点像了,那是不是最后流处理,批处理,数据库也会统一起来呢?

    作者回复: 谢谢你的留言!我很认同你的观点,关于流处理和批处理未来应该会统一起来。数据库作为存储系统的话还是会单独存在的吧。

    
     4
  • JohnT3e
    2019-04-29
    一般业务中都会涉及到实时处理和批处理的需求,现在采取的类似于Kappa的架构。

    Kappa Architecture: http://milinda.pathirage.org/kappa-architecture.com/
    Samba Architecture: http://lambda-architecture.net/
    
     2
  • 涵
    2019-04-29
    在实际工作中数据仓库的数据处理使用的是批处理,根据需要大多数据是日处理,个别数据是一天处理几次,但都是批处理。在做核心业务系统时使用的是流数据处理,通常用消息中间件来传递事件,接收到事件时即开始处理。一直想尝试的是通过日志信息抽取业务信息,实现对业务信息的实时分析,例如当日的实时交易笔数,交易额等,无需侵入核心业务系统,通过日志即可以流数据的形式实时传递给数据平台。了解过splunk,elasticsearch都可以做,但是不清楚哪个更好,或者有其他更好的选择。

    作者回复: 谢谢你的经验分享!赞一个!

    
     2
  • 小凡
    2019-05-18
    请问spring-batch和hadoop这类批处理框架有什么不同吗?还有spring data flow
    
     1
  • slowforce
    2019-05-09
    我们接收现场设备发回来的数据,数据以email或者sftp的形式上传 或者以自定义的格式通过socket直接传。对于前一种情况,我们采取批处理的方式 定时去处理,而对于第二种情况 我认为就是流处理

    作者回复: 谢谢你的分享!

    
     1
  • 越甲非甲
    2019-05-07
    目前我们做的流处理场景下的解决方案,都是控制较小时间窗口的批处理,通过累加类似的方案来实现近似流处理的效果。请问老师,流处理的更一般性的解决思路是什么样子的呢?是这种微批处理的路子吗?谢谢老师!
    
     1
  • CoderLean
    2019-05-04
    Flink的本质就是流处理,而里面的批处理api底层是将时间或者个数设定在某个区域里面,可以认为在这个架构中批处理是流处理的一个特例,我看有的评论说反了。说明还没好好掌握flink

    作者回复: 赞一个大牛的留言啊!

    
     1
  • 每天晒白牙
    2019-04-29
    产生特定格式和维度的报表数据一般是批处理,但实时报表是流处理,需要低延迟

    作者回复: 谢谢你的分享!

    
     1
  • 李鹏
    2019-09-11
    实时处理我的理解是session保持,而不是仅仅因为毫秒就是实时处理。例如,voip
    
    
  • 王蒙
    2019-07-09
    我个人也是比较赞同 DataFlow 模型的思想的,认为批是流的一个特例,未来的计算不会再明显区分到底是流还是批,但不能排除除一些特殊情况(毕竟当前的批计算引擎针对批的场景做了大量的优化,通用系统的性能肯定是赶不上专用系统的),但计算不仅仅是批和流两种形态,还有复杂计算场景,比如现在的 TensorFlow(AI 框架的本质也是计算)、RAY 等,计算引擎最后会不会完全融合到一起呢?或者换个思路,一个引擎可以兼容所有的引擎(有点类似 Beam),在一个计算框架里,可以跑多个 runner(这个 runner 可以是不同的引擎),未来会不会是这样的呢?
    
    
  • 风中花
    2019-06-25
    看到老师有设专栏讲fink的想法!有点期待哦
    
    
  • Echo💯
    2019-06-21
    由spark中的流式表处理 structured-streaming来说,就是针对批处理来对数据进行一段时间一批一批的处理,但是structured-streaming里针对的是连接kafka中的数据,是针对事件时间来处理的,而不是处理时间,所以就是structured-streaming是针对事件时间的批处理计算,谢谢。

    作者回复: 谢谢你的分享!

    
    
  • 西北偏北
    2019-06-14
    有界数据是无界数据的一个子集

    对实时性要求很高的无界数据处理,需要使用流失处理技术

    对数据进行挖掘深沉挖掘的数据处理,需要使用批处理技术,其时延相对较高
    
    
  • 天下行走
    2019-06-04
    很棒,项目中流批处理都用到了,不过没有用成熟的组件,是自己项目写的处理框架,根据lamda架构思想来实现的;
    当数据是永无止境的事件流时,使用流处理,记下了

    作者回复: 谢谢你的分享!我觉得你能自己写出一个处理架构出来也是很牛的,继续加油!

    
    
  • Zoe
    2019-05-29
    老师,突然想到一个小问题。比如说我有一个系统会源源不断的产生log,我把log按小时写进不同文件里。这个过程我可以理解为是流处理,对吗?但当我需要再对log进行其他分析时,我很有可能需要读取不同时间的log文件,再进行一个可能好几个小时的处理,这个过程就可以视为批处理?虽然数据有可能也是以数据流的形式从文件中读取进来的?
    
    
我们在线,来聊聊吧