开发者社区> 问答> 正文

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?

展开
收起
社区小助手 2019-05-30 10:17:36 3731 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    你说某级别是隔离级别吗?隔离级别越高,并发性能越弱。对于 hive spark sql 这种并发很小的情况,支持多种隔离级别意义不是很大。


    平台化,让我执行完sql以后,获取输出的表或分区,对碎片文件进行合并,合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并,用户很麻烦,换了这样的就解决了用户合并文件的问题。


    平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法,都是 trade off


    碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。

    2019-07-17 23:36:21
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载