开源数据库系统有哪些-开源数据库系统有哪些文档介绍内容-移动阿里云

Iceberg数据源

Iceberg Catalog是一种External Catalog。通过Iceberg Catalog，您...查看 Iceberg 表数据您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Iceberg更多介绍，请参见 Iceberg概述。

Hudi数据源

Hudi Catalog是一种External Catalog。通过Hudi Catalog，您可以直接查询Hudi中...查看Hudi表数据您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Hudi更多介绍，请参见 Hudi概述。

2024-11-25版本

本文为您介绍2024年11月25日发布的EMR Serverless Spark的功能变更。概述 2024年11月25日，我们正式对外发布Serverless Spark新版本，包括平台升级、生态...支持数据库迁移（migrate database procedure）。esr-2.4.0(Spark 3.3.1,Scala 2.12)

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

管理工作空间

工作空间是EMR Notebook管理数据库、外部集群和笔记本的基本单元。通过工作空间，您可以创建和编辑Notebook文件，方便地上传和下载文件，与其他用户共享Notebook和数据，并灵活地管理访问权限。前提条件已完成系统角色授权，详情请参见 ...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非结构化数据的高效存储与访问。涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

管理数据目录

数据目录是数据湖构建（Data Lake Formation）或 Hive Metastore(HMS)的元数据最上层实体，可以包含若干个数据库。在EMR Serverless Spark中，您可以通过该功能来查看绑定的数据目录中的数据库和表，还可以添加已有的数据目录。该功能适用...

DeltaLake

Delta数据湖方案如下：在大数据存储层之上提供了数据管理层，该数据管理层等同于数据库中的元数据管理，其元数据随着数据一起存放并对用户可见（例如数据仓库与数据湖所示）。Delta基于元数据管理引入了ACID，解决了因数据导入失败而产生...

SQL命令管理数据库

删除数据库 执行如下命令，删除数据库：DROP DATABASE[TestDb]需注意，若您在删除数据库前没有对该数据库进行过任何备份，系统会返回如下提示信息：DROP DATABASE[TestDb]-Kindly reminder:your database[TestDb]does not exist any backup...

开源软件迁移

y Ubuntu/Debian sudo apt install mysql openSUSE sudo zypper install mysql Redis Redis是一个依据BSD（Berkeley Software Distribution，伯克利软件套件）开源协议发行的高性能Key-Value存储系统，可以用作数据库、缓存、消息代理和流...

数据导入

Label是在一个数据库（Database）下唯一的，用于唯一标识一个导入作业。Label可由用户指定或系统自动生成。Label用于保证对应的导入作业，仅能成功导入一次。一个被成功导入的Label，再次使用时，会被拒绝并报错Label already used。通过该...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

使用Spark处理JindoFS上的数据

与处理其他文件系统的数据类似，以RDD操作为例，直接使用jfs的路径即可：val a=sc.textFile("jfs:/emr-jfs/README.md")写入数据：scala a.collect().saveAsTextFile("jfs:/emr-jfs/output")SparkSQL 创建数据库、数据表以及分区时指定...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

技术支持的范围和方式

例如：数据库、数据湖等。不负责因客户进行非产品预期操作，导致服务不稳定甚至服务不可用的问题。其中，非产品预期的操作指超出使用限制外的行为，使用限制详情请参见使用限制。支持方式工单重要 RAM用户需要具备 ...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

Flume

JDBC Channel：缓存到关系型数据库中。Kafka Channel：通过Kafka来缓存数据。Sink 从Channel中获取Event，并将以事务的形式Commit到外部存储中。一旦事务Commit成功，该Event会从Channel中移除。常见Sink如下：Logger Sink：用于测试。Avro...

集群规划

选择地域和存储元数据服务阿里云EMR支持三种元数据服务，分别为DLF统一元数据、云数据库RDS MySQL及内置MySQL，以存储您的元数据。选择元数据服务硬件与网络阿里云EMR提供多种实例类型，包括通用型、计算型和内存型，以适应您的业务...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

查询管理与分析

查询计划（Query Plan）Query Plan是FE通过解析SQL生成的，负责组织算子（Join、Order、Aggregation）之间的关系，可以为数据库管理者提供一个宏观的视角，从而获取查询执行的相关信息。执行详情（Query Profile）Query Profile是BE执行...

应用场景

强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新：采用了delete-and-insert的实时更新策略，且在读取时无需进行主键合并，相较于采用了merge-on-read（unique）的合并策略，性能提升了3~15倍。湖仓分析场景解决方案 ...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Hive连接器

该元数据存储在数据库（例如，MySQL）中，并通过Hive Metastore Service（HMS）访问。一种称为HiveQL的查询语言。该查询语言在分布式计算框架（例如，MapReduce或Tez）上执行。前提条件已创建EMR-3.45.0及后续版本和EMR-5.11.0及后续版本...

Hudi

您可以实时摄取消息队列（Kafka）和日志服务SLS等日志数据至Hudi中，同时也支持实时同步数据库Binlog产生的变更数据。Hudi优化了数据写入过程中产生的小文件。因此，相比其他传统的文件格式，Hudi对HDFS文件系统更加的友好。近实时数据分析...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

配置连接器

连接器功能 hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。mysql 使用MySQL连接器可以在外部MySQL实例中查询和创建表。iceberg 使用Iceberg连接器可以查询Iceberg...

Paimon数据源

StarRocks从3.1版本开始支持Paimon Catalog。Paimon Catalog是一种...查看Paimon表数据您可以通过SELECT查询目标数据库中的目标表。SELECT*FROM catalog_name.database_name.table_name;相关文档 Paimon更多介绍，请参见 Paimon概述。

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

在Notebook中使用DuckDB

背景信息 DuckDB 是一款轻量级、高性能的嵌入式分析型数据库引擎，专为 OLAP（联机分析处理）场景优化。功能特性嵌入式架构：无需独立服务器，以库的形式直接嵌入应用程序（类似SQLite），支持内存/磁盘模式。列式存储：数据按列存储，...

JDBC Catalog

常见问题 Q：系统返回“Malformed database URL,failed to parse the main URL sections”报错应该如何处理？A：该报错通常是由于 jdbc_uri 中传入的URI有误而引起的。请检查并确保传入的URI准确无误。参见本文 PROPERTIES 相关的参数...

配置连接器

连接器功能对应文档 Hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。Hive连接器 Kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 MySQL 使用MySQL连接器可以在外部MySQL实例中查询和创建表。MySQL连接...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上，仍然使用本地MySQL和统一meta数据库（旧版功能）作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中，原因如下：本地MySQL是单机部署，无法保证服务高可用，容易造成服务中断...

EMR旧版数据开发迁移公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态。如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...