开源数据分析-开源数据分析文档介绍内容-移动阿里云

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

DataHub数据源

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时，无需显式定义表的字段信息，...

Druid数据源

本文介绍如何使用Druid数据源进行数据分析或者交互式开发。建表语法 create table tbName using druid options(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建Druid数据表时，无需显式地定义表的字段信息，...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

TableStore数据源

本文介绍如何使用TableStore数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING tablestore OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建TableStore表时，无需显式定义表的...

Redis数据源

本文介绍如何使用Redis数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING redis OPTIONS(propertyKey=propertyValue[,propertyKey=propertyValue]*);Table Schema 创建...

Druid（仅对存量用户开放）

应用场景实时数据分析是Apache Druid最典型的使用场景。该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询...

Kafka数据源

本文介绍如何使用Kafka数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING kafka OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);配置参数说明 ...

加工数据

本文为您介绍如何用Spark SQL创建外部用户信息表 ods_user_info_d_spark 以及日志信息表 ods_raw_log_d_spark 访问存储在私有OSS中的用户与日志数据，通过...登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据分析与服务...

快速创建和使用数据湖分析集群

WordCount是Hadoop中最基础且经典的分布式计算任务，用于统计海量文本中的单词数量，广泛应用于数据分析、数据挖掘等场景。操作概述通过本快速入门，您将学会：如何快速创建一个数据湖分析集群。如何通过集群客户端提交和运行WordCount...

数据分析

查询外部数据如果需要查询存储在外部数据源中的数据，请参见数据湖分析。跨Catalog查询数据如果想在一个Catalog中查询其他Catalog中的数据，可通过 catalog_name.db_name 或 catalog_name.db_name.table_name 的格式来引用目标数据。...

Iceberg

无 x√自动合并小文件无 x√说明以上信息是在2021年9月份，客观分析开源Iceberg和商业版Iceberg现状之后制定的表格。随着后续版本的不断迭代升级，对比项状态可能发生变化。适用场景 Iceberg作为通用数据湖解决方案中最核心的组件之一，...

启用Trino语法进行数据湖分析

StarRocks 3.x版本在进行数据湖分析时，支持兼容Trino语法。本文介绍如何在StarRocks中利用Trino语法进行数据湖分析，特别是针对从Trino迁移至StarRocks的用户，旨在实现无缝切换且无需更改原有SQL语句。前提条件已创建存算分离版实例，...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

Jindo sql命令介绍

背景信息您可以使用Jindo sql命令分析以下数据：使用Jindo sql分析JindoFS访问日志使用Jindo sql分析元数据使用Jindo sql分析OSS访问日志使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用Jindo sql命令。...

什么是EMR Serverless StarRocks

StarRocks介绍 StarRocks是一款支持MySQL协议的分析型数据库，它集成了向量化处理、MPP架构、代价基础优化器（CBO）、智能物化视图和实时更新的列式存储技术，从而实现了快速、实时、高效的多维数据分析。您可以轻松地将实时或离线数据源...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

Github公开事件数据

由于公开数据集项目支持按Schema存储，未开启租户级别Schema语法的用户无法在DataWorks数据分析提供的公开数据集中直接查看，但您依旧可以通过我们提供的SQL语句进行查询。使用MaxCompute探索GitHub公开事件数据前提条件已开通MaxCompute...

Jindo sql命令介绍

背景信息您可以使用Jindo sql命令分析以下数据：使用Jindo sql分析JindoFS访问日志使用Jindo sql分析元数据使用Jindo sql分析OSS访问日志使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用Jindo sql命令。...

Jindo sql命令介绍

背景信息您可以使用Jindo sql命令分析以下数据：使用Jindo sql分析JindoFS访问日志使用Jindo sql分析元数据使用Jindo sql分析OSS访问日志使用限制 EMR-3.36.0及后续版本或EMR-5.2.0及后续版本的集群，支持使用Jindo sql命令。...

基于Flink、EMR Serverless Spark与...一体数据湖分析

本文演示了使用实时计算Flink版和EMR Serverless Spark构建Paimon数据湖分析流程。该流程包括将数据写入OSS、进行交互式查询以及执行离线数据Compact操作。EMR Serverless Spark完全兼容Paimon，通过内置的DLF元数据与其他云产品（例如，...

什么是EMR Serverless Spark

其设计理念是打造一个统一平台，融合多种应用场景，让用户无需切换工具即可高效完成从数据分析到模型训练的全流程工作。平台能力层该系统主要为上层场景提供支撑，通过工作流编排实现批处理、流计算以及人工智能作业的多场景混合调度。...

Kudu

Kudu是一个分布式的，具有可扩展性的列式存储管理器，可以对快速变化的数据进行快速分析。使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。本文为您介绍Hive连接器相关的内容和操作。背景信息 Hive数仓系统由以下三部分内容组成：不同格式的数据文件，通常存储在Hadoop分布式文件系统（HDFS）或对象存储系统（例如，...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

阿里云E-MapReduce（简称EMR）支持Spark、Trino计算引擎直接访问Hologres和MaxCompute表，为您提供了更加完善的湖仓一体化的解决方案，以及更加高效、稳定的数据分析体验。背景信息 Hologres 是阿里巴巴自主研发的一站式实时数仓引擎，支持...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的运单分析金融行业...

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

Serverless Spark 免费公测

使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。EMR Serverless Spark免费公测于2024年04月25日开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。免费试用结束后，产品将正常...

ClusterSummary

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING：运行中。TERMINATING：终止中。...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

选择业务场景

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您...

Hudi

近实时数据分析 Hudi支持多种数据分析引擎，包括Hive、Spark、Presto和Impala。Hudi作为一种文件格式，不需要依赖额外的服务进程，在使用上也更加的轻量化。增量数据处理 Hudi支持Incremental Query查询类型，您可以通过Spark Streaming...

启用健康诊断

注意信息健康诊断仅支持数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，如需创建请参见创建集群。健康诊断提供集群异常健康问题定位和修复建议，目前已支持Hive...

应用场景

本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型应用。数据湖场景阿里云EMR 数据湖集群，包含以下核心能力：核心能力组件说明统一存储层 OSS-HDFS 提供兼容HDFS协议的对象存储底座，替代传统本地HDFS，计算...

实验介绍

实验用户信息数据结构 MySQL用户信息数据结构（ods_user_info_d）字段名称字段说明 uid 用户名 gender 性别 age_range 年龄分段 zodiac 星座实验目标数据结构根据原始数据分析可获得的有效数据，并基于业务需求确认最终数据表结构。...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...