大数据开源框架-大数据开源框架文档介绍内容-移动阿里云

StarRocks

说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式系统的设计思想，其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

分布式框架Ray

什么是AnalyticDB Ray 开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架，通过简洁的 API 抽象实现高效的分布式调度，用户仅需几行代码，即可将单机任务扩展至千节点集群，能够像调用本地函数一样调度远程资源。其内置模块（如Ray...

Lindorm for Cassandra应用实践

Lindorm For Cassandra特性更强性能：相比开源Cassandra，Lindorm For Cassandra在大规模数据下吞吐量更高，延迟更低。同等规格，20亿行数据下Lindorm与开源Cassandra的性能对比如下：说明以下数值仅供参考，具体以实际场景为准。单行读...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

什么是EMR Serverless Spark

产品优势云原生极速计算引擎内置Fusion Engine(Spark Native Engine)：相对开源版本性能提升300%，显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率，同时减少内存占用，大幅提升整体性能。内置Celeborn（Remote ...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

创建Data Science集群

集群类型 Data Science：主要面向大数据+AI场景，提供Hive和Spark离线大数据ETL和TensorFlow模型训练，您可以选择CPU+GPU的异构计算框架，通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本默认最新的软件版本。组件版本展示集群...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

Serverless Spark 免费公测

EMR Serverless Spark 开启公测，公测期间可免费使用适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务，包括任务开发、...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

HDFS

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

Druid（仅对存量用户开放）

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

数据安全基线

对于数据泄露风险，补救的成本会更大比例体现在赔偿和罚款，较小比例体现在对IT系统的升级加固上。企业需充分结合自身实际情况从上述角度评估数据泄露的风险。最终，对风险大小的评估、对风险治理程度的决策和预案将决定IT架构上数据防护...

什么是EMR Workflow

无缝对接EMR资源集群和各种大数据计算存储引擎，例如Hive、Spark和Flink等。提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种...

实时诊断

COMPACTION输入数据量：P50：输入数据量的50%分位数。P70：输入数据量的70%分位数。P99：输入数据量的99%分位数。MAX：最大输入数据量。MIN：最小输入数据量。任务详情 COMPACTION任务列表展示了每个COMPACTION任务的详细信息，涵盖以下...

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作，或是跨多个数据库的交互。之所以关注运行中大查询，是因为这些查询可能会大量占用CPU、内存及IO等计算资源，从而影响系统中其他查询的性能。因此，对这类查询进行实时监控是维护系统...

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

集群资源规格评估建议

数据总存储容量：数据平均流入*数据保留时长*分区副本因子。节点规格推荐通常情况下，Core节点组规格配置推荐如下：节点数：根据业务需求评估，具体请参见评估Broker的节点数。CPU：16 Core。内存：64 GiB。重要建议选择CPU和内存配比为...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，为您提供对实例内数据的管理、诊断与分析，以及安全权限配置等功能。前提条件已创建StarRocks实例，详情请参见创建实例。步骤一：进入StarRocks...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议（SLA），但服务不降级。商业化开启后SLA...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息，如果比其他的Task处理的数据量大很多，则说明出现了倾斜问题。如何预估Hive作业并发量的上限值？Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

测试说明

数据盘：建议使用ESSD数据盘，具体数据容量根据需要测试的数据量大小决定。地域和VPC：建议确保ECS和StarRocks实例在相同地域，并使用相同的VPC网络进行连接。公网IP：需要分配公网IP地址。更多关于创建ECS的操作，请参见实例创建方式介绍...

性能测试

Lindorm Ganos 引擎在大部分查询中的耗时都比较低，耗时约为开源GeoMesa（HBase）的1/3，约为云数据库MongoDB分片集群的1/2，测试结果如下：时间和空间范围的查询耗时在时间范围和空间范围查询场景中，Lindorm Ganos 引擎的查询耗时都比较...

Delta连接器

EMR Trino提供了独立的Delta连接器，在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案，以数据为中心，围绕数据流走向推出了一系列功能特性，详情请参见 Delta ...

概述

它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on MaxCompute支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

SparkSQL自适应执行

而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，例如reduce阶段要处理的数据可能是10 MB，也有可能是100 GB，如果使用同一个值对实际运行效率会产生很大影响，例如10 MB的数据一个task就可以解决，...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

免费体验Lindorm宽表性能&价格力

背景云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务，支持MySQL协议，兼容HBase、Elasticsearch、Hive、Spark、HDFS 等开源标准。...

Celeborn

Celeborn是一个处理中间数据的服务，能够提升大数据引擎的稳定性、灵活性和性能。本文为您介绍如何使用Celeborn服务。背景信息目前Shuffle方案的缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中存在大量...

应用场景

全栈分析引擎 Spark、Hive、Presto/Trino 集成离线ETL（Spark/Hive）、交互式查询（Presto/Trino）等框架，覆盖数据入湖、处理、分析到出湖全场景，支持与 DataWorks、Quick BI 无缝协作，加速数据价值转化。在数据湖场景下，阿里云EMR通过...

在Notebook中使用DuckDB

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库，除了支持 DuckDB 开源版本所具备的所有功能外，还额外提供了免密访问 OSS/OSS-HDFS 的能力，从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...