hadoop

#hadoop#

已有18人关注此标签

内容分类

小生生

一文告诉你什么是E-MapReduce

阿里云E-MapReduce(Elastic MapReduce),是运行在阿里云平台上的一种大数据处理的系统解决方案。

云栖号资讯小编

从 Hadoop 到云原生(1):Kylin 在云原生巨浪中的思考

基于云平台的数据仓库技术正在逐渐让所有人相信拥抱云原生才是数据仓库技术以及相关数据分析技术未来,云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。

云栖号资讯小编

有哪些大数据处理工具?

本文分享作者在大数据系统实践过程中接触过的一些工具及使用感受,抛砖引玉,和同学们一起构建一个分布式产品的全景图。

说出你的愿望吧

开源大数据EMR

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

开源大数据EMR

再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器

此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

阿里云E-MapReduce团队

重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

最佳实践小文

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

阿里云E-MapReduce团队

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。

云栖号资讯小哥

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个初步了解。

云栖号资讯小编

千亿级数据毫秒响应,为什么它最有机会干掉传统数据存储模式?

一款针对海量数据进行毫秒级在线即席查询分析的数据库决定了企业是否能以比竞争对手更低的成本、更快的速度解决问题,构建起核心竞争力。

开源大数据EMR

不通过 Spark 获取 Delta Lake Snapshot

Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物理删除,因此一些例如在 web 上获取元数据或进行部分数据展示的操作如果直接从表路径下获取 parquet 文件信息,读到的可能是历史已经被标记删除的数据。

优惠码优惠

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

官宣!ASF官方正式宣布Apache Hudi成为顶级项目 马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。

好程序员

好程序员大数据培训分享大数据两大核心技术

  好程序员大数据培训分享大数据两大核心技术,今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。  Hadoop是什么?  Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。

好程序员

好程序员大数据学习路线分享Hadoop机架感知

  好程序员大数据学习路线分享Hadoop机架感知,1.背景:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。

阿里云E-MapReduce团队

对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

IT软硬件架构、企业部署已经发生了翻天覆地的变化,在这些新的变革下,HDFS露出了一定的颓势。但是云上对象存储是唯一的选择吗?面向on-premise,云环境以及混合云环境,在这新旧存储架构交替之际,数据存储会如何发展呢,如何填补Hadoop存储留下的空白?

好程序员

HBase知识点集中总结

  好程序员大数据培训分享:HBase知识点集中总结,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

冷月_wjh

CDH5 Hadoop如何支持读写OSS

CDH和CM(Cloudera Manager) CDH (Cloudera’s Distribution, including Apache Hadoop)是众多Hadoop发行版本中的一种,由Cloudera维护,目前有不少用户使用这个发行版本。

nauu

从ClickHouse的名字由来讲起

ClickHouse为什么叫ClickHouse ? 你知道它的名称来历吗?