大数据分析开源工具-大数据分析开源工具文档介绍内容-移动阿里云

ClusterSummary

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING：运行中。TERMINATING：终止中。...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

Flink

例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下场景：实时ETL（Extract-transform-load）和数据流 ...

产品简介

企业专属知识库 GIS 时空大数据分析 离在线一体数据分析其他云数据仓库业务迁移（Greenplum、Redshift、Synapse、Snowflake、BigQuery等）客户行业游戏、零售、汽车零售、电商、教育节省成本共同点按实际数据量收取数据存储费用冷热...

ETL工具支持概览

支持的ETL工具见下，可以同时参见更详细的同步方案列表数据迁移及同步方案综述：数据传输服务（DTS）：阿里云提供的实时数据同步服务，可以将其他数据源（RDS MySQL，ECS自建MySQL，PolarDB等）实时同步数据到 AnalyticDB PostgreSQL版，...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

DataHub数据源

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时，无需显式定义表的字段信息，...

启用健康诊断

注意信息健康诊断仅支持数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，如需创建请参见创建集群。健康诊断提供集群异常健康问题定位和修复建议，目前已支持Hive...

安全责任共担

责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系，保障EMR产品内部使用的计算、存储、网络等基础设施的安全性。基于阿里云账号认证体系，...

实验介绍

实验用户信息数据结构 MySQL用户信息数据结构（ods_user_info_d）字段名称字段说明 uid 用户名 gender 性别 age_range 年龄分段 zodiac 星座实验目标数据结构根据原始数据分析可获得的有效数据，并基于业务需求确认最终数据表结构。...

开启和关闭释放保护

使用限制该功能仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）类型的按量付费集群。开启或关闭释放保护系统默认关闭释放保护功能，您可以在创建集群时或创建...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

Redis数据源

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

Cluster

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

查看弹性伸缩活动

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。集群已配置弹性伸缩规则，详情请参见创建自定义弹性伸缩策略、创建托管弹性...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间，为进一步帮助EMR老用户平滑过渡到EMR新平台，EMR老用户新购*和续费数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、自定义集群（Custom）等新集群类型，EMR...

Zookeeper

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

查看集群日报与分析

Hive库冷热数据分布Top信息会展示如下：库极冷数据量分布Top 库冷数据量分布Top 库温数据量分布Top 库热数据量分布Top 说明冷数据是长时间不访问的数据，推荐放到冷备存储，例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况，有...

产品优势

数据同步 MyBase 提供主流开源数据库同步工具，支持MySQL全量、增量数据同步。同时方便用户一键接入商业的数据库复制服务，提供性能更好、功能更强大的体验。节点管理 MyBase 的节点管理功能，可以查看、编辑管控和引擎内核部署的节点规格...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

EMR on ACK计费说明

通过阅读本文，您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce（简称EMR）on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件，并在容器内运行。收费详情请参见产品计费。

InstanceType

Big data：大数据型。Local SSDs：本地 SSD 型。High Clock Speed：高主频型。Enhanced：增强型。Shared：共享型。Compute-optimized with GPU：GPU 计算型。Visual Compute-optimized：视觉计算型。Heterogeneous Service：异构服务型。...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

创建Data Science集群

集群类型 Data Science：主要面向大数据+AI场景，提供Hive和Spark离线大数据ETL和TensorFlow模型训练，您可以选择CPU+GPU的异构计算框架，通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本默认最新的软件版本。组件版本展示集群...

尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持启用尽力交付功能。弹性扩...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

克隆集群

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。使用限制如果已有集群的产品版本、业务场景或地域不再支持，则不支持克隆。...

测试结果分析

本文介绍云原生多模数据库 Lindorm 与开源HBase的吞吐量对比、毛刺率对比和压缩率对比的测试结果。前提条件基于以下环境配置，性能测试工具和测试方法分析本文的测试结果。环境配置的详情请参见测试环境。性能测试工具的使用请参见性能...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

配置数据质量监控

为保障任务产出的表数据符合预期，您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...