apache开源项目--Apache Drill

简介:

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.

 

Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据。该体系架构中关系查询引擎和数据库的构建是有先决条件的,即假设所有数据都有一个简单的静态架构。

Apache Drill 的架构师独一无二的。它是唯一一个支持复杂和无模式数据的柱状执行引擎(columnar execution engine),也是唯一一个能在查询执行期间进行数据驱动查询(和重新编译,也称之为 schema discovery)的执行引擎(execution engine)。这些独一无二的性能使得 Apache Drill 在 JSON 文件模式下能实现记录断点性能(record-breaking performance)。

 

该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

Day-zero analytics & rapid application development

数据结构:

   Purpose-built for semi-structured/nested data

兼容已有的 SQL 环境和 Apache Hive:

 Compatibility with existing SQL environments and Apache Hive deployments

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

Drill 查询:

The flow of a Drill query

Drillbit 核心模型:

 Drillbit components

Drill 编译器:


本文转自二郎三郎博客园博客,原文链接:http://www.cnblogs.com/haore147/p/5103225.html,如需转载请自行联系原作者
相关文章
|
3月前
|
SQL 数据可视化 大数据
【开源项目推荐】Apache Superset——最优秀的开源数据可视化与数据探索平台
【开源项目推荐】Apache Superset——最优秀的开源数据可视化与数据探索平台
141 1
|
3月前
|
Dubbo 应用服务中间件 Apache
恭喜 Apache Dubbo 和 Nacos 荣获开放原子“2023年度生态开源项目”
恭喜 Apache Dubbo 和 Nacos 荣获开放原子“2023年度生态开源项目”
|
11月前
|
消息中间件 自然语言处理 Cloud Native
最高等级!Apache RocketMQ 入选可信开源项目星云象限领导型象限
最高等级!Apache RocketMQ 入选可信开源项目星云象限领导型象限
|
自然语言处理 Dubbo 搜索推荐
又一国产开源项目走向世界,百度RPC框架Apache bRPC正式成为ASF顶级项目
Apache bRPC的前身是百度内部的一个RPC框架,采用C++语言编写,号称工业级别,在百度内部众多基础和业务系统中得到大规模的应用,是属于实战出来的,有很好的落地效果和"底子"。
350 0
|
消息中间件 存储 运维
第一次尝试为Apache顶级开源项目贡献代码
第一次尝试为Apache顶级开源项目贡献代码
第一次尝试为Apache顶级开源项目贡献代码
|
Cloud Native Linux Apache
生态建设对开源项目的重要性 | Apache APISIX Summit Asia 2022 圆桌回顾
2022 年 5 月 21 日,Apache APISIX Summit ASIA 2022 开启第二天的议程。围绕“生态建设对开源项目的重要性”这一主题,王晔倞(API7.ai 合伙人兼技术副总裁,Apache APISIX Committer)担任主持人,与周小四(青云科技容器事业部负责人)、王宇博(亚马逊云科技开发者关系总监)、吴晟(Tetrate 创始工程师,Apache SkyWalking 创始人)三位嘉宾展开了一场圆桌讨论,讨论话题包括:“社区、用户、开发者对于开源项目的意义”、“完善的开源生态系统对于开发者和用户的意义”、“开源生态发展在国内大环境下的态势与挑战”。
197 0
|
消息中间件 SQL 数据采集
解决研发数据分析瓶颈,开源项目 DevLake 加入 Apache 软件基金会孵化器 | InfoQ 专访
每一位开源参与者、每一个开源项目都可以成为舞台上的主角。
218 0
解决研发数据分析瓶颈,开源项目 DevLake 加入 Apache 软件基金会孵化器 | InfoQ 专访
|
存储 SQL 分布式计算
全票通过!微众开源项目 Linkis 进入 Apache 孵化
全票通过!微众开源项目 Linkis 进入 Apache 孵化
全票通过!微众开源项目 Linkis 进入 Apache 孵化
|
消息中间件 自然语言处理 Cloud Native
Apache RocketMQ 荣获 2021 中国开源云联盟优秀开源项目
伴随着云原生时代的到来以及实时计算的兴起, 生于云、长于云的 RocketMQ 5.0 应运而生,阿里云消息队列 RocketMQ 全新升级为云原生消息、事件、流融合处理平台 RocketMQ 5.0,帮助用户更轻松地构建下一代事件驱动和流处理应用。
Apache RocketMQ 荣获 2021 中国开源云联盟优秀开源项目
|
Dubbo Cloud Native 应用服务中间件
参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!
一说到参与开源项目贡献,一般大家的反应都是代码级别的贡献,总觉得我的代码被社区合并了,我才算一个贡献者,这是一个常见的错误认知。其实,在一个开源社区中有非常多的角色是 non-code contributor,一个开源社区中的很多关键职责被大家给忽略了。
参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

热门文章

最新文章

推荐镜像

更多