hadoop

#hadoop#

已有18人关注此标签

内容分类

开源大数据EMR

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。

开源大数据EMR

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

健身不健身

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。

最佳实践小文

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

最佳实践小文

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

最佳实践小文

自建 ElasticSearch 迁移阿里云

以 ElasticSearch 为例,演示搭建模拟业务系统、VPN 网关和 IPSec VPN 隧道,介绍如何通备份到阿里云 OSS 存储空间,以及介绍如果将备份在 OSS 的快照仓库恢复到阿里云 ElasticSearch 实例,进一步达到 ElasticSearch 迁移上云的目的。

云栖号资讯小编

大神如何一招完美解决Hadoop集群无法正常关闭的问题!

相信对于大部分的大数据初学者来说,一定遇见过Hadoop集群无法正常关闭的情况。有时候当我们更改了Hadoop内组件的配置文件后,必须要通过重启集群来使配置文件生效。

开源大数据EMR

环形缓冲区-Hadoop Shuffle过程中的利器

环形队列广泛用于网络数据收发,和不同程序间数据交换(比如内核与应用程序大量交换数据,从硬件接收大量数据)均使用了环形队列。

MaxCompute铭宥

MaxCompute 搬站的原理、实践以及常见问题

本文主要介绍了Hadoop到MaxCompute数据迁移的多种方式及其原理和适用场景,并着重介绍了使用MaxCompute Migrate Assist (MMA)进行数据迁移时的常见问题及解法。

开源大数据EMR

面对业务增长,Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

王知无

大数据总纲 | 大数据方向学习面试知识图谱

愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。 大纲 本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。

断木

案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

传统大卖场发展面临全新的挑战,本案例详细介绍在这个时代的拐点,零售企业如何借助大数据上云实现企业运营数智化转型,提升精细化运营能力,最终实现业务创新。

云栖号资讯小编

为什么说Java仍将是未来的主导语言?

Java 是一门通用型编程语言,由 Sun 微系统公司(后被甲骨文收购)于 1995 年推出。尽管 Java 已经 25 岁了,但仍然“宝刀未老”。

巴蜀真人

来!PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。

陆封

如何将数据仓库从 AWS Redshift 迁移到阿里云 AnalyticDB for PostgreSQL

阿里云AnalyticDB for PosgreSQL与 AWS Redshift 均为采用PosgreSQL内核的MPP架构数据仓库服务,语法高度兼容一致。本文介绍两者的差异比较,以及如何从AWS Redshift迁移应用和数据到阿里云 ADB for PG。

云栖号资讯小编

2020年不可不知的十大大数据技术

数字时代最先进的技术之一就是大数据技术。大数据不是一个流行的术语,而是用来描述规模庞大、随时间急剧变大的数据集合的术语。这意味着该数据很庞大,传统管理工具都无法分析、存储或处理它。

yq传送门

秒级启动万个容器,探秘阿里云容器镜像加速黑科技| 1月9号云栖号夜读

阿里云容器与存储团队展开合作,利用DADI加速器支持镜像按需读取和P2P分发,实现3.01秒启动10000个容器,完美杜绝容器冷启动的数分钟漫长等待,以及镜像仓库大规模并行分发场景下的网络拥堵。年关将至,各种年货节、秒杀商品、倒计时直播即将纷至沓来。

刘-建伟

大数据上云第一课:(1)MaxCompute授权和外表操作躲坑指南

本文主要针对于在使用MaxCompute开发过程中,对MaxCompute账号授权、外部表操作及元数据查询等相关问题做一个简单的介绍。

阿里云E-MapReduce团队

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。