SQL 查询的分布式执行与调度

开源大数据EMR 2020-02-03

分布式 算法 SQL 线程 HASH exchange CPU

作者:张茄子,算法、 分布式技术和函数式编程爱好者


OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

这些算法和模型将主要在 SQL 和关系模型的语境之内讨论, Spark 和 Flink 这类基于 DAG 的处理系统内也有很多相似的概念,在本文中将不会赘述。

基础模型

Volcano 模型

《SQL 查询优化原理与 Volcano Optimizer 介绍》中,我们已经对以关系代数为基础的 SQL 查询优化算法进行了介绍,本文的很多内容也将建立在前文内容的基础之上。首先我们来介绍在单线程执行环境下广为人知的经典模型——Volcano 模型。(值得


登录 后评论
下一篇
云栖号资讯小编
410人浏览
2020-03-31
相关推荐
SQL Server 2005架构
896人浏览
2017-11-15 16:00:00
Spark知识体系完整解读
1011人浏览
2017-08-01 13:52:00
Spark on Yarn年度知识整理
859人浏览
2016-01-20 21:04:00
0
0
1
2126