开源数据中台-开源数据中台文档介绍内容-移动阿里云

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

通过Kyuubi Token对DLF数据的权限管控

该方案通过与RAM用户绑定的Token，实现了对数据湖构建（DLF）中Paimon Catalog数据的精细化访问控制。最终效果为，不同客户端可通过各自的身份凭证访问同一Kyuubi网关，但仅限于查询其被授权的数据。业务场景在企业级数据分析平台中，多个...

Sqoop常见问题

问题描述：例如，在云数据库RDS数据源中，数据表 test_table 中包含时间戳（TIMESTAMP）字段。您可以执行以下命令，导入 test_table 中的数据至HDFS。sqoop import \-connect jdbc:mysql:/rm-2ze*341.mysql.rds.aliyuncs.com:3306/s*o_...

数据分析

外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks 2.3及以上版本支持Catalog功能，方便您轻松访问并查询存储在各类外部源的数据。当前StarRocks提供Internal Catalog和External ...

JDBC Catalog

背景信息通过JDBC Catalog，您可以：直接查询MySQL、PostgreSQL及其协议兼容的数据源中的数据。基于JDBC Catalog，结合INSERT INTO能力对JDBC数据源的数据实现转换和导入。创建JDBC Catalog 语法 CREATE EXTERNAL CATALOG catalog_name...

Delta Lake数据源

通过Delta Lake Catalog，您可以直接查询Delta Lake中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Delta Lake Catalog。前提条件已创建包含Delta Lake服务的集群，例如DataLake或Custom集群，详情请见创建集群。已...

实验介绍

通过数据集成获取不同数据源中的用户基本信息数据和用户访问日志信息至引擎中。在引擎中将获取到的日志数据通过加工拆解为可分析的字段。在引擎中将用户基本信息和初步加工后的日志数据进行汇总加工。进一步加工产出基本用户画像。涉及模块...

Default Catalog

如果在以上步骤中未指定数据库，则可以在查询语句中直接指定。SELECT*FROM db_name.table_name;示例查询 olap_db.olap_table 中的数据。切换到目标数据库并执行查询。USE olap_db;SELECT*FROM olap_table limit 1;直接指定数据库查询。...

使用老版DataWorks

案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体的地理属性、社会属性等，实现定时定点进行画像分析，进而实现网站流量精细化运营操作。您可以通过DataWorks和EMR Serverless ...

使用新版DataWorks

案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体的地理属性、社会属性等，实现定时定点进行画像分析，进而实现网站流量精细化运营操作。您可以通过DataWorks和EMR Serverless ...

Hive数据源

通过Hive Catalog，您可以直接查询Hive中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hive Catalog。前提条件已创建包含Hive服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的...

查询外部数据

如果在以上步骤中未指定External Catalog和数据库，则可以在查询语句中直接指定。SELECT*FROM catalog_name.db_name.table_name;示例创建一个名为 hive1 的 Hive Catalog。如需通过 hive1 查询Apache Hive集群中 hive_db.hive_table 的...

JDBC数据源

事务隔离级别脏读不可重复读幻读 READ_UNCOMMITTED 是是是 READ_COMMITTED 否是是 REPEATABLE_READ 否否是 SERIALIZABLE 否否否 NONE 无无无写入数据当您需要向数据库中写入数据时，可以通过以下命令设置一个关联的SQL ...

Hudi数据源

通过Hudi Catalog，您可以直接查询Hudi中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Hudi Catalog。前提条件已创建包含Hudi服务的集群，例如DataLake或Custom集群，详情请见创建集群。已创建包含StarRocks服务的...

Iceberg数据源

通过Iceberg Catalog，您可以直接查询Iceberg中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Iceberg Catalog。前提条件已创建包含Iceberg服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含...

读写MySQL

在数据开发中创建 SparkSQL 类型的任务，使用以下SQL进行测试。CREATE TEMPORARY VIEW test USING org.apache.spark.sql.jdbc OPTIONS(url 'jdbc:mysql:/jdbc_url/',dbtable ' db.table ',user ' username ',password ' password ');...

Paimon数据源

通过Paimon Catalog，您可以直接查询Paimon中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Paimon Catalog。前提条件已创建包含Paimon服务的集群，例如DataLake或Custom集群，详情请参见创建集群。已创建包含...

Fluss Catalog（Beta）

方法二：设置会话级默认 Catalog 和 Database 通过 SHOW DATABASES 查看指定Catalog所属的Fluss Catalog中的数据库。SHOW DATABASES FROM catalog_name;选择目标数据库。通过 SET CATALOG切换当前会话生效的Catalog。SET CATALOG catalog_...

Delta Lake Catalog

Delta Lake Catalog是一种External Catalog...您可以这样来转换该表中的数据，并把数据导入到StarRocks中。INSERT INTO default_catalog.olap_db.olap_tbl SELECT*FROM deltalake_table;相关文档 Delta Lake更多介绍，请参见 Delta Lake概述。

Hudi Catalog

您可以这样来转换该表中的数据，并把数据导入到StarRocks中。INSERT INTO default_catalog.olap_db.olap_tbl SELECT*FROM hudi_table;手动或自动更新元数据缓存 StarRocks默认会缓存Hudi的元数据，并以异步模式自动更新这些缓存，以提升...

数据上云工具

开源产品 Sqoop（Tunnel通道系列）Sqoop基于社区Sqoop 1.4.6版本开发，增强了对MaxCompute的支持，可以将数据从MySQL等关系数据库导入或导出到MaxCompute表中，也可以从HDFS或Hive导入数据到MaxCompute表中。详情请参见 MaxCompute Sqoop。...

Hive数据按行过滤

Ranger支持对Hive数据按行进行过滤（Row Level Filter），即可以对Select返回的结果按行进行过滤，只显示满足指定条件的行。本文介绍如何将Hive数据按行进行过滤...语句，查看表 default.test_row_filter 中的数据时，只能显示id≥10的数据。

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。本文为您介绍Hive连接器相关的内容和操作。背景信息 Hive数仓系统由以下三部分内容组成：不同格式的数据文件，通常存储在Hadoop分布式文件系统（HDFS）或对象存储系统（例如，...

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

WHERE语句

WHERE语句可用于对SELECT语句中的数据进行筛选。语法 SELECT[ALL|DISTINCT]{*|projectItem[,projectItem]*} FROM tableExpression[WHERE booleanExpression];示例测试数据 Address City Oxford Street Beijing Fifth Avenue Beijing ...

手动恢复Standby NameNode

在某些情况下，您需要手动恢复Standby NameNode，例如某台NameNode数据目录被误删、NameNode editslog产生了大量堆积，Active NameNode状态健康并且已经手动完成checkpoint等场景。本文介绍如何手动恢复Standby NameNode。操作步骤在EMR...

Impala

Impala为存储在Apache Hadoop中的数据，提供了高性能和低延迟的SQL查询。使用Impala，您可以通过SELECT、JOIN和聚合函数实时查询存储在HDFS或HBase中的数据。背景信息 Impala使用与Apache Hive相同的元数据、SQL语法（Hive SQL）和ODBC驱动...

SQL

SQL任务类型，用于连接数据库并执行...SQL任务节点设置中，数据源类型选择为 HIVE，数据源实例选择已添加的HIVE数据源（与上述非查询类SQL任务示例中选择的数据源保持一致），SQL类型选择为查询，SQL语句内容如下。select*from hive_table

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理（Data Masking），即可以对Select的返回结果脱敏，以屏蔽敏感信息。背景信息该功能只针对HiveServer2的场景（例如，Beeline、JDBC和Hue等途径执行的Select语句）。操作步骤说明本文Ranger截图以2.1.0...

Spark支持连接外部Hive Metastore

Serverless Spark支持连接外部Hive Metastore 适用客户全网用户新增功能/规格 Serverless Spark支持连接外部Hive Metastore服务，您可以便捷地访问存储在Hive Metastore中的数据。产品文档 EMR Serverless Spark连接外部Hive Metastore

ECS应用角色（EMR 3.32之后、EMR 4.5之后版本以及EMR ...

EMR 3.32之后版本、EMR 4.5之后版本，以及EMR 5.x系列版本，将Metaservice服务替换为ECS应用角色，在EMR集群创建和扩容时自动分配给EMR集群中的每个ECS实例。在EMR集群之上运行的应用程序通过该角色来获得与其他云服务交互的权限，实现以免...

Hive访问EMR HBase数据

在阿里云E-MapReduce（EMR）中，Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Hive访问EMR HBase数据

在阿里云E-MapReduce（EMR）中，Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

DML语句

代码示例如下所示：向非分区表 h0 中插入数据。insert into h0 select 1,'a1',20;向静态分区表 h_p0 中插入数据。insert into h_p0 partition(dt='2021-01-02')select 1,'a1';向动态分区表 h_p0 中插入数据。insert into h_p0 partition(dt...

Hive访问EMR Phoenix数据

在阿里云E-MapReduce（EMR）中，Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR Phoenix数据。前提条件已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...

Hive访问Delta Lake和Hudi数据

Hive不支持写入数据到Delta Lake和Hudi，但是可以通过外部表的方式查询Delta Lake和Hudi中的数据。本文通过示例为您介绍如何使用EMR上的Hive访问Delta Lake和Hudi数据。前提条件已创建包含Hive、Delta Lake和Hudi服务的集群，详情请参见 ...

配置自建RDS

DataLake和Custom集群在创建过程中会自动根据所提供的数据库连接参数初始化Hive Meta数据库，因此无需执行该步骤。使用SSH方式登录集群的Master节点，详情请参见登录集群。执行以下命令，切换为hadoop用户。su-hadoop 执行以下命令，进行...

应用场景

使用StarRocks统一管理数据湖和数据仓库，将高并发和实时性要求很高的业务放在StarRocks中进行分析，也可以使用External Catalog和外部表进行数据湖上的分析。典型场景的解决方案 OLAP通用场景解决方案业务背景：该方案适用于多种业务场景...

SELECT语句

SELECT语句用于从表中选取数据。语法 SELECT[DISTINCT]{*|projectItem[,projectItem]*} FROM tableExpression;测试数据 a（VARCHAR）b（INT）c（DATE）a1 211 1990-02-20 b1 120 2018-05-12 c1 89 2010-06-14 a1 46 2016-04-05 示例一测试...

配置数据质量监控

触发方式生产调度触发，节点选择加工数据中创建的 dwd_log_info_di_emr 节点。说明配置数据质量监控的更多信息，请参见配置规则：按表（单表）。步骤三：配置监控规则表 dwd_log_info_di_emr 用于对 ods_raw_log_d_emr 表数据进行...