焦向,美团点评高级技术专家,酒店经营效率组负责人。
以 Flink 和 SnappyData 为核心,将原有的非实时、开发周期长、维护成本高的以“预处理”为核心的方案,转化为目前以“后处理”为核心的方案。
开发效率:得到质变,无需预处理,周级别需求小时级完成;
节省存储空间:比如原方案 Kylin 中 150T+ 预处理结果数据不再需要;
其他一些收益:比如指标一致性显著提升;
历史数据问题:采用类 SCD Type 2 的方式,处理历史事实数据和数据压缩,有不少对比数据;
建模问题:直接从原始表支持需求,中间缺少传统数仓建模的抽象层次,尝试实现类似 Shasta 的 RVL 层。
介绍 SnappyData 的优势劣势,当前的问题,我们在调优方面的努力,以及我们的定制化修改:
支持注册 Spark 声明式 UDF,相比于命令式 UDF,性能提升一个量级,很好的解决了酒店的特殊场景;
Boxing/Unboxing 优化;
QueryPlan Cache 相关的优化。