数据分析开源平台-数据分析开源平台文档介绍内容-移动阿里云

尽力交付

前提条件已创建数据湖（DataLake）、数据分析（OLAP）、实时数据流（DataFlow）、数据服务（DataServing）或自定义集群（Custom），详情请参见创建集群。使用限制手动扩容场景：仅按量付费类型的节点组，支持启用尽力交付功能。弹性扩...

克隆集群

前提条件已创建数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，详情请参见创建集群。使用限制如果已有集群的产品版本、业务场景或地域不再支持，则不支持克隆。...

配置数据质量监控

为保障任务产出的表数据符合预期，您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

开启部署集

使用限制本文操作仅适用于新版数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和自定义集群（Custom）场景的集群。创建集群时配置的节点组部署集，创建完成后不支持更改。仅Master和Core类型的...

管理元数据

Paimon：高性能数据湖场景 Iceberg：大规模数据分析场景用户信息系统自动显示当前用户和关联的RAM用户。如果没有关联的RAM用户，创建DLF Catalog后将无法访问DLF数据目录。确认配置信息无误，单击确定按钮完成DLF Catalog创建。创建...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

选择地域和存储

适用场景数据湖架构冷数据分析 低延迟读写场景数据可靠性 OSS支持本地冗余存储和同城冗余存储，提供了跨可用区的高可靠性保障。由云存储底层保障，数据丢失风险极低。依赖副本机制（本地盘默认3副本，云盘默认2副本），局限于集群内部，...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

常见问题

数据边上传边提交分析建议采用如下方法：1）测序数据下机拆分完成后，本地使用OSS SDK按样本上传，上传完立即使用基因分析平台SDK提交分析任务，此种方式可自动化上传数据及分析，调度性能最高，可获得最短的结果交付周期；2）测序数据下机...

什么是EMR on ECS

相关文档 EMR支持数据湖场景、数据分析场景、实时数据流场景、数据服务场景，具体请参见应用场景。想了解EMR各版本支持的组件情况，请参见各版本支持的组件。想了解EMR集群的运维与监控能力，请参见集群运维和集群监控。

变更计算组规格

网络增强型：1CU=1核 CPU+4 GiB 内存，网络带宽为标准规格的2倍以上，适用于外表分析数据扫描量较大的场景，使用ESSD云盘作为StarRocks存储。高性能存储：需要您选择详细规格。该规格类型使用本地SSD数据盘作为StarRocks存储，适用于对存储...

EMR与自建Hadoop集群对比优势

开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和分析场景。对比项阿里...

审计日志

StarRocks将所有审计日志存储在本地文件 fe/log/fe.audit.log 中，并且这些日志无法通过系统内部数据库访问。审计日志功能默认启用，并将安装AuditLoader插件，该插件能够从本地文件中读取日志，并通过HTTP PUT方法将其导入StarRocks数据库...

StarRocks

具体的业务场景如下所示：OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的...

客户案例

同时，构建自助数据分析平台，快速满足各类人员不同数据分析需求。数据体系整体上云，使用少量组件即可实现流批一体、湖仓一体，完成从数据驱动到数智驱动，极大发挥数据价值。视频介绍社交媒体行业：欢聚时代大规模数据湖建设客户简介 ...

产品优势

同Flink，物联网平台无缝对接，生态丰富开源产品，与云产品集成能力弱存储成本数据压缩时序领域专用压缩，压缩率高通用压缩，压缩率低稳定性数据读取读写线程池分离，易于管理连接，读写稳定读写耦合，容易造成连接数耗尽，读写...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断...通过对集群中各种信息进行融合分析，并根据智能算法进行智能诊断分析，减少大数据平台繁重和重复的劳动。

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

应用场景

本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型应用。数据湖场景阿里云EMR 数据湖集群，包含以下核心能力：核心能力组件说明统一存储层 OSS-HDFS 提供兼容HDFS协议的对象存储底座，替代传统本地HDFS，计算...

数据分析

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的运单分析金融行业...

Serverless Spark 免费公测

使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。EMR Serverless Spark免费公测于2024年04月25日开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。免费试用结束后，产品将正常...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

MaxCompute 是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

数据湖分析

数据湖存储集成

本章节重点介绍如何使用主流数据湖格式（如Paimon、Hudi、Iceberg）进行数据存储与管理，并结合流批一体技术实现...使用Paimon 使用Hudi 使用Iceberg 使用Delta Lake 使用DLF 基于Flink、EMR Serverless Spark与Paimon构建流批一体数据湖分析

功能特性

查看作业列表 EMR Serverless 功能集功能功能描述参考文档 Serverless StarRocks 实例管理通过创建StarRocks实例，您可以快速获取一个托管的且高性能的环境，无需自行搭建和维护基础设施，轻松进行大规模数据分析和查询。创建实例扩缩...

EMR Studio（已不支持新购）

覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势优势描述兼容开源 EMR Studio提供深度优化的开源组件使用体验，100%兼容开源大数据生态。您无需修改任务代码，即可平滑迁移上云。通过EMR ...

EMR Spark功能增强

用户可以创建Relational Cache对数据进行预计算，在执行用户查询时，Spark Optimizer自动发现合适的Cache，并改写SQL执行计划，基于Cache的数据继续计算，从而提升查询速度，适用于报表、Dashboard、数据同步和多维分析等场景。通过DDL，...