大数据开源教程

_相关内容

什么是EMR Serverless Spark

产品优势 云原生极速计算引擎 内置Fusion Engine(Spark Native Engine):相对开源版本性能提升300%,显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率,同时减少内存占用,大幅提升整体性能。内置Celeborn(Remote ...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 ...

使用老版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...

快速入门

EMR Studio自带调度教程,您可以在Zeppelin页面,选择 阿里云EMR数据开发教程 Airflow教程 Airflow调度教程1 查看。Airflow的基本用法,请参见 Apache Airflow。说明 EMR Studio自带用于调度Zeppelin Notebook的Operator(ZeppelinOperator...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。使用限制 仅支持企业版及以上版本。...

使用新版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品,于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Serverless Spark 免费公测

EMR Serverless Spark 开启公测,公测期间可免费使用 适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、...

HDFS

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

Druid(仅对存量用户开放)

Apache Druid是一个分布式内存实时分析系统,用于解决如何在规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点:支持亚秒级的交互式查询。例如,多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

什么是EMR Workflow

无缝对接EMR资源集群和各种大数据计算存储引擎,例如Hive、Spark和Flink等。提供与Apache DolphinScheduler兼容的接口和使用体验,支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能:支持多种...

Hive

Zeppelin的Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何在Zeppelin中使用Hive。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群...内置教程 EMR数据开发集群自带了很多开发教程,详细信息请在如下图页面查看。

实时诊断

COMPACTION输入数据量:P50:输入数据量的50%分位数。P70:输入数据量的70%分位数。P99:输入数据量的99%分位数。MAX:最大输入数据量。MIN:最小输入数据量。任务详情 COMPACTION任务列表展示了每个COMPACTION任务的详细信息,涵盖以下...

Presto

Zeppelin的Presto解释器是使用JDBC连接Presto。本文为您介绍如何在Zeppelin中使用Presto。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群...内置教程 EMR数据开发集群自带了很多开发教程,详细信息请在如下图页面查看。

Flink

Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink,相关内容请参见...

同步数据

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据,配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中,并通过创建Spark外表解析OSS中存储的数据。通过查询验证数据同步结果,确认是否完成整个数据同步...

查询管理与分析

此类查询通常涉及到规模数据处理、复杂的计算操作,或是跨多个数据库的交互。之所以关注运行中大查询,是因为这些查询可能会大量占用CPU、内存及IO等计算资源,从而影响系统中其他查询的性能。因此,对这类查询进行实时监控是维护系统...

集群资源规格评估建议

数据总存储容量:数据平均流入*数据保留时长*分区副本因子。节点规格推荐 通常情况下,Core节点组规格配置推荐如下:节点数:根据业务需求评估,具体请参见 评估Broker的节点数。CPU:16 Core。内存:64 GiB。重要 建议选择CPU和内存配比为...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台,为您提供对实例内数据的管理、诊断与分析,以及安全权限配置等功能。前提条件 已创建StarRocks实例,详情请参见 创建实例。步骤一:进入StarRocks...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议(SLA),但服务不降级。商业化开启后SLA...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息,如果比其他的Task处理的数据很多,则说明出现了倾斜问题。如何预估Hive作业并发量的上限值?Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

测试说明

数据盘:建议使用ESSD数据盘,具体数据容量根据需要测试的数据量大小决定。地域和VPC:建议确保ECS和StarRocks实例在相同地域,并使用相同的VPC网络进行连接。公网IP:需要分配公网IP地址。更多关于创建ECS的操作,请参见 实例创建方式介绍...

性能测试

Lindorm Ganos 引擎在部分查询中的耗时都比较低,耗时约为开源GeoMesa(HBase)的1/3,约为云数据库MongoDB分片集群的1/2,测试结果如下:时间和空间范围的查询耗时 在时间范围和空间范围查询场景中,Lindorm Ganos 引擎的查询耗时都比较...

Delta连接器

EMR Trino提供了独立的Delta连接器,在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案,以数据为中心,围绕数据流走向推出了一系列功能特性,详情请参见 Delta ...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具(其中部分工具已经在GitHub公开源代码,以开源社区的方式进行维护)。您可以根据实际应用场景,选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端(Tunnel通道系列)...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

Alluxio(仅对存量用户开放)

Alluxio是一个面向基于云的数据分析和人工智能的开源数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...

准备环境

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。本实验使用 数据开发(DataStudio)(旧版)进行数据加工。EMR环境准备 创建EMR集群 本教程需要您创建一个EMR集群,用于集成到...

DeltaLake

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

Superset(仅对存量用户开放)

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库,包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库,以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台,DataWorks沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。迁移流程 阿里云DataWorks on EMR团队提供了完善...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品。产品优势如下:云原生极速计算引擎 内置Fusion Engine(Spark Native Engine),相对开源版本性能提升300%。内置...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用