开源数据分析报表-开源数据分析报表文档介绍内容-移动阿里云

HBase Replication

HBase可以基于Replication功能将实时写入的数据从主集群复制到备集群，从而提高HBase数据的可靠性和数据访问的扩展性。HBase目前支持异步Replication、串行Replication和同步Replication。本文为您介绍如何开启HBase的异步Replication功能...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

ECS应用角色（EMR 3.32及之前版本和EMR 4.5及之前版本...

ots:CreateTable 根据给定的表结构信息创建相应的数据表。ots:DeleteTable 删除本实例下指定的表。ots:GetRow 根据指定的主键读取单行数据。ots:PutRow 插入数据到指定的行。ots:UpdateRow 更新指定行的数据。ots:DeleteRow 删除一行数据。...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

使用须知

了解开源Spark SQL 开源Spark SQL中，数据表的命名由以下三个部分构成：Catalog：用来标识用户不同的数据源。Namespace：与数据库中的Database或者Schema相对应。Table：与数据库中的表相对应。了解Lindorm计算引擎SQL 根据您已开通的引擎...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

Sqoop常见问题

问题描述：例如，在云数据库RDS数据源中，数据表 test_table 中包含时间戳（TIMESTAMP）字段。您可以执行以下命令，导入 test_table 中的数据至HDFS。sqoop import \-connect jdbc:mysql:/rm-2ze*341.mysql.rds.aliyuncs.com:3306/s*o_...

UNION ALL语句

示例测试数据表1：test_source_union1 a（varchar）b（bigint）c（bigint）test1 1 10 表2：test_source_union2 a（varchar）b（bigint）c（bigint）test1 1 10 test2 2 20 表3：test_source_union3 a（varchar）b（bigint）c（bigint）...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

Jindo sql命令介绍

分析OSS访问日志需要指定OSS访问日志目录和指定是否为分区表，指定分区表会自动按照Bucket或date进行日志归档，能够支持使用过滤语句指定查询某个分区，极大的提升了查询效率，但是开启分区表之后必须每次使用分区表模式，否则文件会被归档...

Jindo sql命令介绍

分析OSS访问日志需要指定OSS访问日志目录和指定是否为分区表，指定分区表会自动按照Bucket或date进行日志归档，能够支持使用过滤语句指定查询某个分区，极大的提升了查询效率，但是开启分区表之后必须每次使用分区表模式，否则文件会被归档...

Spark对接MaxCompute

本文介绍如何在Spark中进行MaxCompute数据的读写操作。操作步骤初始化一个OdpsOps对象。在Spark中，MaxCompute的数据操作通过OdpsOps类完成。import ...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

Iceberg连接器

Iceberg是一种开放的数据湖表格式，使用Iceberg连接器可以查询Iceberg格式的数据文件。背景信息 Iceberg的详细信息，请参见 Iceberg概述。前提条件已创建DataLake集群或Hadoop集群，并选择了Presto服务，详情请参见创建集群。使用限制 ...

数据目录

StarRocks自2.3版本起支持Catalog（数据目录）功能，实现在一套系统内同时维护内、外部数据，方便您轻松访问并查询存储在各类外部源的数据。本文为您介绍什么是Catalog，以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件已创建StarRocks集群，详情请参见创建StarRocks集群。说明此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务，详情请参见 ...

DLF-Auth

DLF-Auth组件是数据湖构建DLF（Data Lake Formation）产品提供的，通过该组件可以开启数据湖构建DLF的数据权限功能，可以对数据库、数据表、数据列、函数进行细粒度权限控制，实现数据湖上统一的数据权限管理。本文为您介绍如何开启DLF-...

JMX连接器

openfiledescriptorcount|maxfiledescriptorcount-+-329|10240(1 row)history：包含了配置文件中配置的需要转储的指标对应的数据表。您可以通过以下命令进行查询。SELECT"timestamp","uptime"FROM jmx.history."java.lang:type=runtime;...

作业模板

创建HDFS数据表，需要完成表的列字段定义。hdfsTableName：HDFS表的名称。location:存储数据路径，支持HDFS和OSS路径。数据格式支持：delta,csv,json,orc,parquet等，默认为delta。CREATE TABLE IF NOT EXISTS${hdfsTableName}(col1 ...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

数据分析

仪表盘是数据分析和数据展示的画布，在仪表盘中可以做到实时的数据分析，也可以将数据制作为报表进行展示或分享。大屏是针对大屏幕的特殊数据展示画布，支持灵活自定义的样式配置。应用场景安全自助式数据分析 基于DMS安全管控底座，确保...

查询Delta表数据

在E-MapReduce中通过Spark创建的Delta表将自动同步到Hive元数据，您可以像使用其他表一样查询Delta表。您还可以通过使用Hive创建外表的方式来查询Delta表。本文为您介绍如何通过Spark创建表和Hive创建外表的方式，在Hive、Presto和Trino中...

使用HBase快照

您可以在包含HBase服务的集群上使用HBase Shell或通过命令行来创建、导入或导出快照，并使用快照克隆新表或恢复表数据。本文为您介绍如何使用HBase快照。创建快照使用 hbase shell 命令连接HBase，详情请参见连接HBase。然后，您可以通过...

内表数据源

本文为您介绍什么是内表数据源（Default Catalog），以及如何使用Default Catalog查询StarRocks内部数据。Default Catalog StarRocks 2.3及以上版本提供了Internal Catalog（内部数据目录），用于管理StarRocks的内部数据。每个StarRocks...

Delta Lake Catalog

导入Delta Lake数据假设StarRocks的内部数据有一张OLAP表，表名为 olap_tbl。您可以这样来转换该表中的数据，并把数据导入到StarRocks中。INSERT INTO default_catalog.olap_db.olap_tbl SELECT*FROM deltalake_table;相关文档 Delta Lake...

Delta Lake数据源

Delta Lake Catalog是一种External Catalog。...查看 Delta Lake 表数据 您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Delta Lake更多介绍，请参见 Delta Lake概述。

Impala集成Kudu

Impala集成Kudu后，您可以使用Impala访问Kudu的数据表。本文为您介绍Impala如何集成Kudu。前提条件已创建集群，并且选择了Impala和Kudu服务，详情请参见创建集群。操作步骤控制台方式在Impala服务的配置页面，新增以下配置项，具体...

创建SLS数据表。CREATE TABLE IF NOT EXISTS${slsTableName} USING loghub OPTIONS(sls.project='${logProjectName}',sls.store='${logStoreName}',access.key.id='${accessKeyId}',access.key.secret='${accessKeySecret}',endpoint='${...

Unified Catalog

向Unified Catalog内的表中插入数据同StarRocks内表一致，如果您拥有Unified Catalog内表的INSERT权限，那么您可以使用INSERT将StarRocks表数据写入到该表（当前仅支持写入到Parquet格式的Unified Catalog表）。说明您可以通过 GRANT ...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，...步骤六：消费数据用户画像分析完成后，使用数据分析模块，将加工后的数据可视化展现，便于您快速提取关键信息，洞察数据背后的业务趋势。

Slowly Changing Dimension

业务数据随着时间在不断变化，如果您要对数据进行分析，则需要考虑如何存储和管理数据。其中数据中随着时间变化的维度被称为Slowly Changing Dimension（SCD）。E-MapReduce根据实际的数仓场景定义了基于固定粒度的缓慢变化维（G-SCD）。...

Hive数据源

Hive Catalog是一种External Catalog。通过Hive Catalog，您可以直接查询Hive中...查看Hive表数据您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Hive更多介绍，请参见 Hive概述。

Iceberg数据源

Iceberg Catalog是一种External Catalog。通过Iceberg Catalog，您...查看 Iceberg 表数据 您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Iceberg更多介绍，请参见 Iceberg概述。

JDBC Catalog

查看JDBC Catalog中的表数据 您可以通过如下操作查询JDBC Catalog内的表数据。通过SHOW DATABASES查看指定Catalog所属的集群中的数据库。SHOW DATABASES FROM catalog_name;通过SET CATALOG切换当前会话生效的Catalog。SET CATALOG catalog...