数据分析开源项目-数据分析开源项目文档介绍内容-移动阿里云

Github公开事件数据

简介大量开发人员在GitHub上进行开源项目的开发工作，并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息，并开放其中的公开事件，包括加星标、提交代码等，具体事件类型请参见 GitHub Events ...

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

阿里云E-MapReduce（简称EMR）支持Spark、Trino计算引擎直接访问Hologres和MaxCompute表，为您提供了更加完善的湖仓一体化的解决方案，以及更加高效、稳定的数据分析体验。背景信息 Hologres 是阿里巴巴自主研发的一站式实时数仓引擎，支持...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的运单分析金融行业...

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

ClusterSummary

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING：运行中。TERMINATING：终止中。...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

选择业务场景

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您...

Hudi

近实时数据分析 Hudi支持多种数据分析引擎，包括Hive、Spark、Presto和Impala。Hudi作为一种文件格式，不需要依赖额外的服务进程，在使用上也更加的轻量化。增量数据处理 Hudi支持Incremental Query查询类型，您可以通过Spark Streaming...

应用场景

本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型应用。数据湖场景阿里云EMR 数据湖集群，包含以下核心能力：核心能力组件说明统一存储层 OSS-HDFS 提供兼容HDFS协议的对象存储底座，替代传统本地HDFS，计算...

启用健康诊断

注意信息健康诊断仅支持数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，如需创建请参见创建集群。健康诊断提供集群异常健康问题定位和修复建议，目前已支持Hive...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

开启和关闭释放保护

使用限制该功能仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）类型的按量付费集群。开启或关闭释放保护系统默认关闭释放保护功能，您可以在创建集群时或创建...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

集群规划

考虑因素说明考虑因素描述相关文档业务场景阿里云EMR预定义了四类业务场景，分别为数据湖集群、数据分析集群、实时数据流集群和数据服务集群。此外，系统还支持自定义集群，您可以根据具体的业务选择相应的业务场景。选择业务场景 ...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

Redis数据源

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

Cluster

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作...

JDBC数据源

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时，无需显式地定义表的字段信息，示例...

查看弹性伸缩活动

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。集群已配置弹性伸缩规则，详情请参见创建自定义弹性伸缩策略、创建托管弹性...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间，为进一步帮助EMR老用户平滑过渡到EMR新平台，EMR老用户新购*和续费数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）、自定义集群（Custom）等新集群类型，EMR...

组件操作

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术，提供统一的数据访问入口，支持跨多种底层存储。Alluxio 数据集成数据集成层的组件提供数据批量传输、实时消息流处理和分布式日志收集的能力，提升数据传输效率和数据...

Druid（仅对存量用户开放）

应用场景实时数据分析是Apache Druid最典型的使用场景。该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询...

配置自定义软件

数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，需要包含后缀。例如，文件名称为 yarn-site.xml。旧版数据湖（hadoop），不需要后缀。例如，文件名称为 yarn-site...

API概览

GetDoctorHDFSDirectory 获取HDFS特定目录分析结果通过EMR Doctor获取集群HDFS特定目录数据分析结果，目录不超过5级。ListDoctorJobsStats 批量获取任务运行汇总数据通过EMR Doctor批量获取任务基本运行汇总信息。ListDoctorReports 批量...

尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持启用尽力交付功能。弹性扩...

克隆集群

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。使用限制如果已有集群的产品版本、业务场景或地域不再支持，则不支持克隆。...

配置数据质量监控

为保障任务产出的表数据符合预期，您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

冷热分层

在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据分析和快速的事务更新写入，又能有效地降低冷热数据分离的成本。更多介绍请参见结构...

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。