大数据分析开源软件-大数据分析开源软件文档介绍内容-移动阿里云

Redis数据源

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

Cluster

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

查看弹性伸缩活动

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。集群已配置弹性伸缩规则，详情请参见创建自定义弹性伸缩策略、创建托管弹性...

Trino

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

Zookeeper

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间，为进一步帮助EMR老用户平滑过渡到EMR新平台，EMR老用户新购*和续费数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、自定义集群（Custom）等新集群类型，EMR...

查看集群日报与分析

Hive库冷热数据分布Top信息会展示如下：库极冷数据量分布Top 库冷数据量分布Top 库温数据量分布Top 库热数据量分布Top 说明冷数据是长时间不访问的数据，推荐放到冷备存储，例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况，有...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

EMR on ACK计费说明

通过阅读本文，您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce（简称EMR）on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件，并在容器内运行。收费详情请参见产品计费。

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

InstanceType

Big data：大数据型。Local SSDs：本地 SSD 型。High Clock Speed：高主频型。Enhanced：增强型。Shared：共享型。Compute-optimized with GPU：GPU 计算型。Visual Compute-optimized：视觉计算型。Heterogeneous Service：异构服务型。...

API概览

GetDoctorHDFSDirectory 获取HDFS特定目录分析结果通过EMR Doctor获取集群HDFS特定目录数据分析结果，目录不超过5级。ListDoctorJobsStats 批量获取任务运行汇总数据通过EMR Doctor批量获取任务基本运行汇总信息。ListDoctorReports 批量...

尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持启用尽力交付功能。弹性扩...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

克隆集群

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。使用限制如果已有集群的产品版本、业务场景或地域不再支持，则不支持克隆。...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

配置数据质量监控

为保障任务产出的表数据符合预期，您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...

快速入门

RDS MySQL快速入门 RDS SQL Server快速入门 RDS PostgreSQL快速入门 RDS MariaDB快速入门数据库引擎简介 RDS MySQL MySQL MySQL是全球受欢迎的开源数据库之一，作为开源软件组合LAMP（Linux+Apache+MySQL+Perl/PHP/Python）中的重要一环，...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

支持的数据源

数据入仓适用于对后续数据分析性能有较高要求的业务场景。数据入湖：将原始数据以开源的Iceberg、Paimon等表格式导入至数据湖中。数据湖可以是 AnalyticDB for MySQL 提供的湖存储，也可以是您自有的OSS Bucket。数据湖具有开源开放的特点...

通过DMS连接StarRocks实例

类别配置项说明数据来源-选择阿里云 大数据 StarRocks。基本信息数据库类型 StarRocks。实例地区选择在EMR控制台创建的StarRocks实例所在的地域。其他主账号如果您选择跨阿里云账号实例，则会出现该配置项。选择StarRocks实例所属...

JindoFS外部客户端

设置环境变量 BIGBOOT_HOME 为程序安装根目录，将程序根目录下 ext 和 lib 的路径，添加到用户使用的大数据组件（Hadoop或Spark等）的 Classpath 中。从E-MapReduce集群内部拷贝配置文件/usr/lib/bigboot-current/conf/bigboot.cfg....

JindoFS介绍和使用

A：因为JindoFS SDK和Cache模式完全兼容OSS对象存储语义，具有完全的存储分离架构和弹性灵活性，所以，针对典型的数据湖场景，推荐您使用SDK或者Cache模式以支持大数据分析和AI训练加速。Q：为什么Block模式跟HDFS相比，是更好的HDFS？A：...

JindoFS缓存模式

元数据同步策略缓存模式下可能存在JindoFS集群构建之前，您已经在OSS上保存了大量数据的场景，对于这种场景，后续的数据访问会同步数据和元数据到JindoFS集群，数据同步策略为了访问数据都会在本地保留一份；元数据同步策略分为两部分，...

DeltaLake

在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在如下问题：数据导入可能会失败，失败后清理脏数据和恢复作业困难。方案中没有ETL（Extract Transform Load）过程，缺少必要的数据质量监管。方案中没有事务...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

实例规格规划及建议

预估公式 CU总数=扫描数据总行数/CPU处理能力/预期响应时间*QPS（每秒查询次数）涉及参数说明如下：扫描数据总行数：每个SQL预期扫描的数据总行数，需注意该数据量并非指单表的总数据量，而仅限于实际需要扫描的数据量。CPU处理能力：该值...

整体架构

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

管理日志

使用限制本文操作仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和数据湖（Hadoop）场景的集群。支持日志投递的服务有hdfs、yarn、yarn_application、hive、spark、jindodata、tez、...

什么是EMR Serverless Spark

产品优势云原生极速计算引擎内置Fusion Engine(Spark Native Engine)：相对开源版本性能提升300%，显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率，同时减少内存占用，大幅提升整体性能。内置Celeborn（Remote ...