数据分析开源-数据分析开源文档介绍内容-移动阿里云

开启和关闭释放保护

使用限制该功能仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）类型的按量付费集群。开启或关闭释放保护系统默认关闭释放保护功能，您可以在创建集群时或创建...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

集群规划

考虑因素说明考虑因素描述相关文档业务场景阿里云EMR预定义了四类业务场景，分别为数据湖集群、数据分析集群、实时数据流集群和数据服务集群。此外，系统还支持自定义集群，您可以根据具体的业务选择相应的业务场景。选择业务场景 ...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

Cluster

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...

查看弹性伸缩活动

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。集群已配置弹性伸缩规则，详情请参见创建自定义弹性伸缩策略、创建托管弹性...

加工数据

ods_user_info_d_spark 以及日志信息表 ods_raw_log_d_spark 访问存储在私有OSS中的用户与日志数据，通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据，阅读本文后，您可以了解如何通过Spark SQL来计算和分析已同步的数据，...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间，为进一步帮助EMR老用户平滑过渡到EMR新平台，EMR老用户新购*和续费数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、自定义集群（Custom）等新集群类型，EMR...

Loghub数据源

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

配置自定义软件

数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，需要包含后缀。例如，文件名称为 yarn-site.xml。旧版数据湖（hadoop），不需要后缀。例如，文件名称为 yarn-site...

API概览

GetDoctorHDFSDirectory 获取HDFS特定目录分析结果通过EMR Doctor获取集群HDFS特定目录数据分析结果，目录不超过5级。ListDoctorJobsStats 批量获取任务运行汇总数据通过EMR Doctor批量获取任务基本运行汇总信息。ListDoctorReports 批量...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持启用尽力交付功能。弹性扩...

克隆集群

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。使用限制如果已有集群的产品版本、业务场景或地域不再支持，则不支持克隆。...

配置数据质量监控

为保障任务产出的表数据符合预期，您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

冷热分层

在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据分析和快速的事务更新写入，又能有效地降低冷热数据分离的成本。更多介绍请参见结构...

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

准备环境

OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息和网站访问日志信息同步到OSS Bucket中，用于数据建模和数据分析。登录 OSS控制台。在左侧导航栏，单击 Bucket列表，在Bucket列表页面，单击创建Bucket。在创建...

开启部署集

使用限制本文操作仅适用于新版数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和自定义集群（Custom）场景的集群。创建集群时配置的节点组部署集，创建完成后不支持更改。仅Master和Core类型的...

管理工作空间

工作空间管理员可以加入成员至工作空间，并赋予工作空间管理员、数据分析、数据开发或访客角色，以实现多角色协同工作。本文为您介绍工作空间的基本操作。前提条件已注册阿里云账号并完成实名认证。具体操作请参见账号注册（PC端）。已...

组件操作

HDFS概述 HDFS常用命令 JVM内存调优 HBase HBase是一种分布式、面向列的开源数据库，其基于Hadoop文件系统构建，旨在为大型数据集提供低延迟的随机读写访问和高可靠性存储。使用HBase快照使用HBase Shell 常见问题和故障诊断 Celeborn ...

管理元数据

Paimon：高性能数据湖场景 Iceberg：大规模数据分析场景用户信息系统自动显示当前用户和关联的RAM用户。如果没有关联的RAM用户，创建DLF Catalog后将无法访问DLF数据目录。确认配置信息无误，单击确定按钮完成DLF Catalog创建。创建...

通过Kyuubi Token对DLF数据的权限管控

业务场景在企业级数据分析平台中，多个用户或应用需要通过统一的SQL网关（如Kyuubi Gateway）访问数据。为保障数据安全，必须隔离不同身份的访问，确保每个用户只能访问其权限范围内的数据。例如，分析师A只能查询业务报表，而数据工程师B...

选择地域和存储

适用场景数据湖架构冷数据分析 低延迟读写场景数据可靠性 OSS支持本地冗余存储和同城冗余存储，提供了跨可用区的高可靠性保障。由云存储底层保障，数据丢失风险极低。依赖副本机制（本地盘默认3副本，云盘默认2副本），局限于集群内部，...