大数据开源教程-大数据开源教程文档介绍内容-移动阿里云

什么是EMR Serverless Spark

产品优势云原生极速计算引擎内置Fusion Engine(Spark Native Engine)：相对开源版本性能提升300%，显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率，同时减少内存占用，大幅提升整体性能。内置Celeborn（Remote ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

实践教程

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

实践教程

快速入门

EMR Studio自带调度教程，您可以在Zeppelin页面，选择阿里云EMR数据开发教程 Airflow教程 Airflow调度教程1 查看。Airflow的基本用法，请参见 Apache Airflow。说明 EMR Studio自带用于调度Zeppelin Notebook的Operator（ZeppelinOperator...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Serverless Spark 免费公测

EMR Serverless Spark 开启公测，公测期间可免费使用适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务，包括任务开发、...

HDFS

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

交互式开发教程

Druid（仅对存量用户开放）

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

什么是EMR Workflow

无缝对接EMR资源集群和各种大数据计算存储引擎，例如Hive、Spark和Flink等。提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种...

Hive

Zeppelin的Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何在Zeppelin中使用Hive。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强：在多个EMR集群...内置教程 EMR数据开发集群自带了很多开发教程，详细信息请在如下图页面查看。

实时诊断

COMPACTION输入数据量：P50：输入数据量的50%分位数。P70：输入数据量的70%分位数。P99：输入数据量的99%分位数。MAX：最大输入数据量。MIN：最小输入数据量。任务详情 COMPACTION任务列表展示了每个COMPACTION任务的详细信息，涵盖以下...

Presto

Zeppelin的Presto解释器是使用JDBC连接Presto。本文为您介绍如何在Zeppelin中使用Presto。背景信息 EMR数据开发的Zeppelin在以下两方面做了增强：在多个EMR集群...内置教程 EMR数据开发集群自带了很多开发教程，详细信息请在如下图页面查看。

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

同步数据

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据，配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中，并通过创建Spark外表解析OSS中存储的数据。通过查询验证数据同步结果，确认是否完成整个数据同步...

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作，或是跨多个数据库的交互。之所以关注运行中大查询，是因为这些查询可能会大量占用CPU、内存及IO等计算资源，从而影响系统中其他查询的性能。因此，对这类查询进行实时监控是维护系统...

集群资源规格评估建议

数据总存储容量：数据平均流入*数据保留时长*分区副本因子。节点规格推荐通常情况下，Core节点组规格配置推荐如下：节点数：根据业务需求评估，具体请参见评估Broker的节点数。CPU：16 Core。内存：64 GiB。重要建议选择CPU和内存配比为...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，为您提供对实例内数据的管理、诊断与分析，以及安全权限配置等功能。前提条件已创建StarRocks实例，详情请参见创建实例。步骤一：进入StarRocks...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议（SLA），但服务不降级。商业化开启后SLA...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息，如果比其他的Task处理的数据量大很多，则说明出现了倾斜问题。如何预估Hive作业并发量的上限值？Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

测试说明

数据盘：建议使用ESSD数据盘，具体数据容量根据需要测试的数据量大小决定。地域和VPC：建议确保ECS和StarRocks实例在相同地域，并使用相同的VPC网络进行连接。公网IP：需要分配公网IP地址。更多关于创建ECS的操作，请参见实例创建方式介绍...

常用API教程

性能测试

Lindorm Ganos 引擎在大部分查询中的耗时都比较低，耗时约为开源GeoMesa（HBase）的1/3，约为云数据库MongoDB分片集群的1/2，测试结果如下：时间和空间范围的查询耗时在时间范围和空间范围查询场景中，Lindorm Ganos 引擎的查询耗时都比较...

Delta连接器

EMR Trino提供了独立的Delta连接器，在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案，以数据为中心，围绕数据流走向推出了一系列功能特性，详情请参见 Delta ...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

准备环境

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本实验使用数据开发（DataStudio）（旧版）进行数据加工。EMR环境准备创建EMR集群本教程需要您创建一个EMR集群，用于集成到...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...