• 大寒
    2025-11-03 来自北京
    问题1:运维接触的较少,而且目前和云厂商合作后很多问题也是跟他们反馈解决。但是也遇到过因为sql查询问题导致内存占用过高(比如错误使用内存表存储几十亿数据导致节点相继挂掉),所以可能我接触到更多的是自身任务问题带来的运维来处理问题。 问题2:我觉得这是一个比较头痛的问题,因为在公司人手充裕的时候做了细致的数仓分层权限控制以及敏感数据加密等措施,但是随着公司人员的大规模缩减,导致运营很多时候没有耐心和时间再去走原来流程,反而当初设置好的权限被一再突破(业务优先)。因此,现在反而成了一个大家靠自觉的情况,尽量不提供敏感数据。 问题3:个人感觉(不知道对不对)老师依次往 大数据NoSQL(7天)+列式存储(Doris)+ 分布式文件系统 + 归档这个层级引导思考。但是我有个疑问,就是毫秒级和秒级的是否都可以用Doris这样的OLAP解决,因为之前公司也是有过好几个OLAP引擎,比如Kylin+Presto+Clickhouse,但是感觉既能兼顾点查又能做聚合运算的比较友好地还是Doris。所以想问下老师,实时类响应都用Doris是否是一个合适的选择?它和HBase相比的不足之处又在哪里? 个人体会,数据存储感触比较深的是在数据治理这里。因为我记得在治理前hive有大量临时表充斥,同时每个表都是全分区保留,以及应用层表无法追踪用途等问题。可以说是一种”我来,我开发,我离去“的状态,然后自己根据实际去做了一些处理也有不错的反馈(比如存储减半这种效果),但是个人感觉还是缺乏理论上的总结,有点野路子。所以,很期待老师关于数据治理方面的内容。
    展开
    
    