极客时间-轻松学习，高效学习-极客邦

DFighting

2019-10-28

关于思考题，我在infoQ上找了一篇文章https://www.infoq.cn/article/58bzvIbT2fqyW*cXzGlG，不知道是不是这么实现的，请老师帮忙看下。

作者回复: 是这样的。



 2
jack

2019-10-09

老师，使用spark streaming 和kafka时，
1、spark官方文档说，如果保存到checkpoint和把offset 提交到kafka，必须保证输出是幂等的，光使用事务是不行的；
2、那么如果无法保证输出是幂等的，是否只能把offset 保存在第三方的数据库(比如redis)中，但是这样做是否是不可以设置checkpoints ？否则spark依然会从checkpoint中读取，和从数据库中读取会造成冲突呢？
3、但不设置checkpoint，spark如何恢复现场呢？在提交命令时加入--supervise，好像yarn的模式不支持？即使使用supervise重启，没有checkpoint，也无法恢复现场吧？

展开

作者回复: A1：是这样的，所以Kafka的Exactly Once特性中是有事务和生产幂等（相当于流计算输出幂等）二个功能组成的。
A2：这个方法不太可行，因为你很难做到完美的故障恢复。原因我在课程中也讲到了。

A3：具体操作细节层面的问题，还是建议你以官方的文档为准。




不惑ing

2019-10-06

第25章讲kafka exactly once需要从kafka topicA读取计算再保存到kafka topocB，但从这章讲的流程看，最后不需要保存到kafka topicB，保存到其他hdfs里也可以，

所以最后一步保存位置有具体要求吗？

作者回复: 理论上是可以的，但是实际上hdfs没有原生事务支持，实现起来比较困难。

 1


张天屹

2019-10-05

老师你好，能介绍下Kafka 配合 Flink，与Kafka Stream 的核心区别吗

作者回复: Kafka Stream目前来说，相关的生态还不够成熟，可以了解一下，但不建议在生产系统中使用。

它和flink最大的区别是，它是一个库，运行在你的应用程序进程内，而不是一个流计算框架。



