• DFighting
    2019-10-28
    关于思考题,我在infoQ上找了一篇文章https://www.infoq.cn/article/58bzvIbT2fqyW*cXzGlG,不知道是不是这么实现的,请老师帮忙看下。

    作者回复: 是这样的。

    
     2
  • jack
    2019-10-09
    老师,使用spark streaming 和kafka时,
    1、spark官方文档说,如果保存到checkpoint和把offset 提交到kafka,必须保证输出是幂等的,光使用事务是不行的;
    2、那么如果无法保证输出是幂等的,是否只能把offset 保存在第三方的数据库(比如redis)中,但是这样做是否是不可以设置checkpoints ?否则spark依然会从checkpoint中读取,和从数据库中读取会造成冲突呢?
    3、但不设置checkpoint,spark如何恢复现场呢?在提交命令时加入--supervise,好像yarn的模式不支持?即使使用supervise重启,没有checkpoint,也无法恢复现场吧?
    展开

    作者回复: A1:是这样的,所以Kafka的Exactly Once特性中是有事务和生产幂等(相当于流计算输出幂等)二个功能组成的。
    A2:这个方法不太可行,因为你很难做到完美的故障恢复。原因我在课程中也讲到了。

    A3:具体操作细节层面的问题,还是建议你以官方的文档为准。

    
    
  • 不惑ing
    2019-10-06
    第25章讲kafka exactly once需要从kafka topicA读取计算再保存到kafka topocB,但从这章讲的流程看,最后不需要保存到kafka topicB,保存到其他hdfs里也可以,

    所以最后一步保存位置有具体要求吗?

    作者回复: 理论上是可以的,但是实际上hdfs没有原生事务支持,实现起来比较困难。

     1
    
  • 张天屹
    2019-10-05
    老师你好,能介绍下Kafka 配合 Flink,与Kafka Stream 的核心区别吗

    作者回复: Kafka Stream目前来说,相关的生态还不够成熟,可以了解一下,但不建议在生产系统中使用。

    它和flink最大的区别是,它是一个库,运行在你的应用程序进程内,而不是一个流计算框架。

    
    
我们在线,来聊聊吧