伯克利开源Confluo 吞吐量比Kafka高4-10倍
极客时间编辑部
讲述:丁婵大小:2.17M时长:02:23
最近,伯克利 RISE 实验室开源了一个多数据流实时分布式分析系统 Confluo。它可以作为网络监控和诊断框架,也可以作为时序数据库和发布订阅消息系统。
据悉,Confluo 是一个多数据流分析系统,可以实现实时的分布式数据分析。通过为多数据流的一些专门应用场景而精心设计的数据结构,和针对端到端而优化的系统设计,实现了高吞吐量并发写入、毫秒级在线查询和高效的即时查询。
Confluo 作为一个开源 C++ 项目,其中包括:
数据结构库,支持高吞吐量日志摄入,以及各种在线(实时聚合、条件触发器执行等)和离线(即时过滤器、聚合等)的查询;
服务器实现,封装了数据结构,并提供 RPC 接口,以及 C++、Java 和 Python 客户端库。
据了解,开发团队针对几种不同的应用场景对 Confluo 进行了评估,包括:
作为一个网络监控和诊断框架,它能够在单个核心上以线路速率(10Gbps 链路)执行数千个触发器和数十个过滤器。
作为一个时间序列数据库,与其他先进的时序数据库相比(如 CorfuDB、TimescaleDB 和 BTrDB),它的吞吐量提高了 2 至 20 倍,写入延迟降低了 2 至 10 倍,吞吐量提高了 1.5 至 5 倍,时间区间查询延迟降低了 5 至 20 倍。
作为一个 pub-sub 系统,它在发布订阅吞吐量方面是 Apache Kafka 的 4 至 10 倍。
值得注意的是,Confluo 做了一些简化的假设,从而能够有效地实现各种在线和离线查询,同时支持每台服务器摄取数千万个数据点。因此,Confluo 只支持具有固定宽度的数据属性。此外,Confluo 目前只支持具有严格模式的流。
现在,开发团队正在开发另外几个有趣的项目,以便让 Confluo 更具表现力,并且进一步提升效率。包括支持使用草图对数据流进行近似查询,支持基于数据流的 SQL 接口,以及通过文件合并和内存池来提高性能。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 冰羽有互联网成功案例吗1
- 布丁老厮有互联网成功案例吗?
- 欧阳波有互联网架构案例嘛
收起评论