在路上
2021-11-29
徐老师好,第一、MapReduce的每个Reduce任务都会对数据排序,哪怕需要的顺序和输入的顺序一致,在运算大数据集时排序可以让相关的数据靠在一起,减少内存的使用,但是对流式计算来说,把一分钟的数据全部放入内存是可行的,排序应该只在需要的时候进行。 第二、MapReduce的输入是有界数据,所以它总是等上一个任务完成,再开始下一个任务,这样系统不能有效利用所有的分布式资源,并且被掉队者(straggler)拖慢进度。而流式计算,会在上一个任务产生输出之后,马上开始第二个任务,这也决定了流式计算的数据一般不需要排序,因为排序需要等待收到全部数据。
9
沉淀的梦想
2023-03-04
来自浙江
这种 Actor 模型扩容不是应该非常容易吗?为什么 S4 不支持动态扩容呢?是因为底层设计无法支撑,还是单纯没做?
1
CRT
2022-01-04
Mr做实时处理会遇到两个问题,第一个就是每个任务都要启动master,过于消耗时间,我们可以让master常驻来解决,也就是把流任务抽象为一个超级大的批任务,输入源无限大,让mr任务每次处理一小部分;第二个问题是mr任务中间结果会落地磁盘,这个比较好解决,既然每次只处理一部分,这部分在内存处理完直接释放即可。
陈迪
2021-12-01
communication layer 类似于node的sidecar😄