Hive

#Hive#

已有2人关注此标签

内容分类

北斗云

Apache Drill 常用Plugins配置

1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.

技术小能手

修改代码150万行!Apache Flink 1.9.0做了这些重大修改!

阿里妹导读:8月22日,Apache Flink 1.9.0 正式发布。早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。此次版本在结构上有重大变更,修改代码达150万行,接下来,我们一起梳理 Flink 1.9.0 中非常值得关注的重要功能与特性。

云吞铺子

Spark问答合集及解决方法

Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.

北斗云

Dremio架构分析

一.Dremio架构 Dremio是基于Apache calcite、Apache arrow和Apache parquet3个开源框架构建,结构其核心引擎Sabot,形成这款DaaS(Data-as-a-Service)数据即服务平台;整体体验风格与其公司开源的Apache Drill非常接近。

北斗云

Dremio案例_Hive数据分析

说明 Dremio-3.3.1支持Hive-2.1.1版本 1.Hive批量导入数据 a).创建表 ## 创建文本数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, ...

北斗云

大数据平台CDH与HDP对比

CDH & HDP平台对比

金络

教程:Data Lake Analytics + OSS数据文件格式处理大全

0. 前言 Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

黄小斜

Hadoop生态系统

Hadoop生态系统 首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。

黄小斜

搞懂分布式技术25:初探大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。

北斗云

大数据平台测试

一.大数据平台测试简述 大数据平台测试包括2部分:基础能力测试和性能测试 Ⅰ).基础能力测试 大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持 大数据平台是否能够通过界面的形式方便用户进行非运行维护,主要包括集群的安装、监控、配置、操作等 大数据平台是否能够提供基本的安全方案 a).

Ververica

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

Ververica

即将发版!Apache Flink 1.9 版本有哪些新特性?

文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分享了对Apache Flink未来发展方向的理解。

隐林

Mac

Spring-Boot

Spring-Boot开发常用组件划分: 1、数据操作 ORM工具 Mybatis/Jpa 数据库 Postgresql/MySQL 缓存 Redis 搜索 ElasticSearch 2、池化工具 连接池 c3p0 线程池 3、定时器 4、大数据组件 消息 ...

EMR

数据湖正在成为新的数据仓库

新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Formation。

开源大数据EMR

【译】数据湖正在成为新的数据仓库

原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 译者:诚历,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。