开源大数据bi-开源大数据bi文档介绍内容-移动阿里云

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎，能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中，可通过在Impala中使用JindoFS SDK，高效...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

安全责任共担

责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系，保障EMR产品内部使用的计算、存储、网络等基础设施的安全性。基于阿里云账号认证体系，...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

Zookeeper

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

选择业务场景

亚秒级查询响应列式存储优化联邦查询能力复杂聚合分析（例如用户画像、人群圈选、商业智能）实时数据流集群流计算引擎：Flink。数据存储：HDFS、OSS-HDFS。数据湖格式：Paimon。资源管理：Yarn。分布式协调服务：Zookeeper。安全与权限...

InstanceType

Big data：大数据型。Local SSDs：本地 SSD 型。High Clock Speed：高主频型。Enhanced：增强型。Shared：共享型。Compute-optimized with GPU：GPU 计算型。Visual Compute-optimized：视觉计算型。Heterogeneous Service：异构服务型。...

EMR on ACK计费说明

通过阅读本文，您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce（简称EMR）on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件，并在容器内运行。收费详情请参见产品计费。

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

创建Data Science集群

集群类型 Data Science：主要面向大数据+AI场景，提供Hive和Spark离线大数据ETL和TensorFlow模型训练，您可以选择CPU+GPU的异构计算框架，通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本默认最新的软件版本。组件版本展示集群...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

为Spark集群关联RSS

目前Spark Shuffle方案缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中存在大量的网络小包导致的Connection reset问题。Shuffle Read过程中存在大量小数据量的IO请求和随机读，对磁盘和CPU造成高负载。...

通过DMS连接StarRocks实例

数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息，即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维，极大提升数据管理体验及操作效率。...

JindoFS缓存模式

元数据同步策略缓存模式下可能存在JindoFS集群构建之前，您已经在OSS上保存了大量数据的场景，对于这种场景，后续的数据访问会同步数据和元数据到JindoFS集群，数据同步策略为了访问数据都会在本地保留一份；元数据同步策略分为两部分，...

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择 大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

JindoFS外部客户端

设置环境变量 BIGBOOT_HOME 为程序安装根目录，将程序根目录下 ext 和 lib 的路径，添加到用户使用的大数据组件（Hadoop或Spark等）的 Classpath 中。从E-MapReduce集群内部拷贝配置文件/usr/lib/bigboot-current/conf/bigboot.cfg....

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息...

准备环境

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本实验使用数据开发（DataStudio）（旧版）进行数据加工。EMR环境准备创建EMR集群本教程需要您创建一个EMR集群，用于集成到...

实例规格规划及建议

预估公式 CU总数=扫描数据总行数/CPU处理能力/预期响应时间*QPS（每秒查询次数）涉及参数说明如下：扫描数据总行数：每个SQL预期扫描的数据总行数，需注意该数据量并非指单表的总数据量，而仅限于实际需要扫描的数据量。CPU处理能力：该值...

Quick BI v4.4.4版本说明

发布日期 2022年10月18日重点升级概览数据大屏动效能力增强，气泡特效支持呼吸和水波，外轮廓线支持流光。数据面板高级计算能力增强，支持累计、组内累计，百分位数，Top N计算、排名计算等（本期先支持交叉表）。数据填报新增富文本...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

ApproximateDataSize zk_approximate_data_size ZooKeeper大致的数据大小。单位：Byte。OpenFileDescriptorCount zk_open_file_descriptor_count ZooKeeper打开文件数量。MaxFileDescriptorCount zk_max_file_descriptor_count ZooKeeper...

Query Profile介绍

说明 Operator花费的时间比例越大，其对应颜色就越深（支持对执行耗时排名前三的节点标注颜色）。您可以借此轻松确认查询的瓶颈。通过鼠标滚动，或单击放大和缩小按钮，可以放大和缩小Profile树。重要指标 Query级别 Summary指标指标说明...

SparkSQL自适应执行

而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，例如reduce阶段要处理的数据可能是10 MB，也有可能是100 GB，如果使用同一个值对实际运行效率会产生很大影响，例如10 MB的数据一个task就可以解决，...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

Serverless Spark 免费公测

EMR Serverless Spark 开启公测，公测期间可免费使用适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务，包括任务开发、...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告