Hive

#Hive#

已有2人关注此标签

内容分类

阿里云实时计算Flink

Flink 1.11 SQL 使用攻略

SQL 作为 Flink 中公认的核心模块之一,对推动 Flink 流批一体功能的完善至关重要。在 1.11 中,Flink SQL 也进行了大量的增强与完善,开发大功能 10 余项,不仅扩大了应用场景,还简化了流程,上手操作更简单。

阿里云实时计算Flink

Flink 1.11 新特性之 SQL Hive Streaming 简单示例

Flink 1.11 的 Hive Streaming 功能大大提高了 Hive 数仓的实时性,对 ETL 作业非常有利,同时还能够满足流式持续查询的需求,具有一定的灵活性。

阿里云实时计算Flink

解决问题 1474 个,Flink 1.11 究竟有哪些易用性上的改善?

7月7日,Flink 1.11.0 正式发布了,作为这个版本的 release manager 之一,我想跟大家分享一下其中的经历感受以及一些代表性 feature 的解读。在进入深度解读前,我们先简单了解下社区发布的一般流程,帮助大家更好的理解和参与 Flink 社区的工作。

阿里云实时计算Flink

字节跳动基于 Flink 的 MQ-Hive 实时数据集成

在数据中台建设过程中,一个典型的数据集成场景是将 MQ (Message Queue,例如 Kafka、RocketMQ 等)的数据导入到 Hive 中,以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层,因此对数据的准确性以及实时性要求比较高。

阿里云实时计算Flink

Flink 1.11:更好用的流批一体 SQL 引擎

在保证优秀性能的同时,易用性是 1.11 版本 Flink SQL 的重头戏。易用性的提升主要体现在以下几个方面:更方便的追加或修改表定义、灵活的声明动态的查询参数、加强和统一了原有 TableEnv 上的 SQL 接口、简化了 connector 的属性定义、对 Hive 的 DDL 做了原生支持、加强了对 python UDF 的支持。

云栖号资讯小编

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

开源大数据EMR

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

云栖号资讯小编

Flink 1.11.0 发布,有哪些值得关注的新特性?

阿里高级技术专家王治江将深度剖析 Flink 1.11.0 带来了哪些让大家期待已久的特性,对一些有代表性的 feature 从不同维度解读。

阿里云E-MapReduce团队

重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

阿里云实时计算Flink

官方剧透:1.11 发版前我们偷看了 Flink 中文社区发起人的聊天记录

自 2014 年正式开源, Flink 发展非常迅速,在 GitHub 上其访问量在 Apache 项目中位居前三。去年年底 Flink Forward Asia 2019 大会公布,仅仅 2019 年一年的时间,Flink 在 GitHub 上的 star 数量就翻了一倍,Contributor 数量也呈现出持续增长的态势。

工程师甲

一次有趣的Elasticsearch+矩阵变换聚合实践

Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。

好程序员

好程序员大数据培训分享Hive的静态分区与动态分区

  好程序员大数据培训分享Hive的静态分区与动态分区:分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。

数据湖分析DLA

一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案

通过一键建湖能简单便捷的构建Mysql分析。它的特性是易用,分析能力强,成本极低,对源库影响很低。

阿里云实时计算Flink

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

Flink 1.10 与 1.9 相比又是个创新版本,在我们感兴趣的很多方面都有改进,特别是 Flink SQL。本文用根据埋点日志计算 PV、UV 的简单示例来体验 Flink 1.10 的两个重要新特性.

huangchuang

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

huangchuang

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

好程序员

hive常见自定义函数

  hive常见自定义函数先来讲一下hive自定义函数1.1 为什么需要自定义函数hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。

好程序员

hive存储过程

  hive存储过程,1、hive存储过程简介1.x版本的hive中没有提供类似存储过程的功能,使用Hive做数据开发时候,一般是将一段一段的HQL语句封装在Shell或者其他脚本中,然后以命令行的方式调用,完成一个业务或者一张报表的统计分析。

好程序员

Ambari和ClouderaManager对比

  好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。