开源库是什么-开源库是什么文档介绍内容-移动阿里云

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

在EMR上使用Sqoop与数据库同步数据时的网络配置

如果您的E-MapReduce（EMR）集群需要和集群之外的数据库同步数据，确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例，分别介绍如何配置网络。云数据库RDS Sqoop是用map任务同步数据，可以在任意节点上运行，而Sqoop任务...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

使用StarRocks Console

说明仅EMR-3.43.0~EMR-3.44.1版本（均包含），EMR-5.9.0~EMR-5.10.1版本（均包含）的集群支持该功能，如果您要使用StarRocks Manager的功能，可以使用EMR Serverless StarRocks，详情请参见 什么是EMR Serverless StarRocks。访问查询页面...

JDBC数据源

id int NULL name string NULL Time taken:0.413 seconds,Fetched 2 row(s)配置参数说明参数描述是否必选 url 数据库地址。是 driver 数据库连接的JDBC驱动。例如 com.mysql.jdbc.Driver”eper.quorum":"a.b.c.d:2181"}。是 dbtable ...

数据分析

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

EMR Serverless Spark商业化公告

更多信息，请参见 什么是EMR Serverless Spark。控制台入口：立即前往。支持地域中国地区地域名称地域ID 华北2（北京）cn-beijing 华东2（上海）cn-shanghai 华东1（杭州）cn-hangzhou 华南1（深圳）cn-shenzhen 华北3（张家口）...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

数据迁移

支持的源库支持的目标库支持的架构支持的迁移类型自建Redis 7.2及以下版本 Redis开源版 4.0、5.0、6.0、7.0版本 Tair（企业版）Redis开源版 4.0、5.0、6.0、7.0版本 Tair（企业版）标准架构集群架构读写分离架构全量数据迁移增量...

数据目录

本文为您介绍什么是Catalog，以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：指保存在StarRocks中的数据。外部数据：指保存在外部数据源中的数据，例如Apache Hive、Apache Iceberg、Apache Hudi、Delta Lake及JDBC等。...

通过开源API访问搜索索引

云原生多模数据库 Lindorm 推出一种新的索引类型，称为搜索索引（SearchIndex）。搜索索引主要面向复杂的多维查询场景，能够覆盖分词、模糊查询、聚合分析、排序翻页等场景。搜索索引通过融合Lindorm宽表引擎（兼容开源HBase API）和...

DeltaLake

与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性，并对比EMR-Delta Lake与开源Delta Lake（0.6.1）。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

数据同步

同步支持度支持的源库支持的目标库支持的架构支持的同步拓扑自建Redis 7.2及以下版本 Redis开源版 4.0、5.0、6.0、7.0版本 Tair（企业版）Redis开源版 4.0、5.0、6.0、7.0版本 Tair（企业版）标准架构集群架构读写分离架构单向同步...

JDBC Catalog

jdbc_uri 是 JDBC驱动程序连接目标数据库的URI。如果使用MySQL，格式为："jdbc:mysql:/ip:port。如果使用PostgreSQL，格式为："jdbc:postgresql:/ip:port/db_name。driver_url 是用于下载JDBC驱动程序JAR包的URL。对于Serverless ...

Tair（企业版）

Tair（企业版）是基于阿里集团内部使用的Tair产品研发的云上托管企业级内存数据库，从2009年开始正式承载阿里集团业务，历经天猫双十一、优酷春晚、菜鸟、高德等业务场景的磨练，是一款真正的企业级内存数据库产品。实例存储介质随着...

EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上，仍然使用本地MySQL和统一meta数据库（旧版功能）作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中，原因如下：本地MySQL是单机部署，无法保证服务高可用，容易造成服务中断...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

核心特性

列存只读实例开源与多云 PolarDB-X 在2021年11月份正式全内核开源，通过定期同步商业版本到开源版本（大约3~6个月），从而持续保持开源版本的迭代和功能对齐。在开源生态中，PolarDB-X 提供了配套的轻量化管控、生态工具的适配，可以基于...

持久内存型

产品优势持久内存型基于持久内存技术，提供大容量、兼容Redis的内存数据库产品，数据持久化不依赖传统磁盘，保证每个操作持久化的同时提供近乎 Redis开源版的吞吐和延时，极大提升业务数据可靠性。适用于兼容 Redis、大容量、服务抖动...

Hive

EMR-3.23.0之前版本 Hive 2.x 外部统一数据库保存至Hive Meta，所有使用外部Hive Meta的集群共享同一份Meta信息。EMR-4.x系列 EMR版本组件版本功能增强 EMR-4.10.0 Hive 3.1.2 修复了Hue查询历史记录时，中文乱码的问题。修复了Hue与...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

产品选型参考

创建云数据库 Tair（兼容 Redis）实例前，您需要结合产品性能、价格、业务场景（例如用作高速缓存或内存数据库）、工作负载等因素，作出性价比与稳定性最优的决策。本文围绕以上因素，介绍产品类型、容灾方案、架构类型和实例规格，为您的...

与开源PostgreSQL性能对比

测试数据量本次实验测试数据量如下表所示：参数说明表数目 8 行数 64,000,000 总数据量 128 GB 性能结果写场景 TPS/实例类型 PolarDB for PostgreSQL 14 开源PostgreSQL 14数据库 oltp_insert 43129.08 41161.66 oltp_update_index ...

Hive统一元数据

EMR-2.4.0之前版本，所有集群采用的是集群本地的MySQL数据库作为Hive元数据库；EMR-2.4.0及后续版本，E-MapReduce（简称EMR）支持统一的高可靠的Hive元数据库。背景信息因为元数据库需要使用公网IP来连接，所以集群必须要有公网IP，同时请...

数据导入

Label是在一个数据库（Database）下唯一的，用于唯一标识一个导入作业。Label可由用户指定或系统自动生成。Label用于保证对应的导入作业，仅能成功导入一次。一个被成功导入的Label，再次使用时，会被拒绝并报错Label already used。通过该...

DataX Writer

参数描述是否必选默认值 username StarRocks数据库的用户名。是无 password StarRocks数据库的密码。是无 database StarRocks数据库的名称。是无 table StarRocks表的名称。是无 loadUrl StarRocks FE的地址，用于Stream Load，可以...

管理工作空间

工作空间是EMR Notebook管理数据库、外部集群和笔记本的基本单元。通过工作空间，您可以创建和编辑Notebook文件，方便地上传和下载文件，与其他用户共享Notebook和数据，并灵活地管理访问权限。前提条件已完成系统角色授权，详情请参见 ...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

性能测试

本文介绍 Ganos 时空服务与开源GeoMesa（HBase）、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境本次性能测试中需要准备以下测试数据库，具体配置如下表：数据库配置说明云原生多模数据库 Lindorm 宽表引擎（已...

扩缩容计算组

前提条件实例状态为运行中。...如果有未支付的订单，您必须先支付或作废未支付的订单。注意事项扩缩容期间，服务可能出现中断，请确认业务使用方已增加重试机制。扩缩容期间，不可进行其他的升配，降配，修改配置，升级等操作。...

扩缩容实例

创建实例后，您可以通过增加FE节点的数量来实现扩容，以提升系统性能或承载更多业务流量；或者通过减少FE节点的数量来实现缩容，以优化资源利用率并降低运行成本。根据实际业务需求灵活调整节点数量，确保系统高效运行。...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

登录数据库

您需要登录图数据库GDB才能对数据库内的数据进行查询和分析，本教程以DMS为例介绍如何登录数据库。前提条件已根据快速入门完成创建账号步骤，具体操作请参见创建账号。操作步骤登录 DMS数据管理服务控制台。单击页面左侧数据库实例旁...

Livy

Livy是一个通过REST接口或RPC client库与Spark服务进行交互的服务。Livy支持提交Spark作业或者Spark代码片段，同步或者异步的进行结果检索以及Spark Context上下文管理，Livy简化了Spark和应用程序服务器之间的交互，从而使Spark能够用于...

测试环境

测试环境本次测试对开源自建HBase与云数据库HBase增强版进行了多个场景的性能对比。网络类型为VPC网络，并保证客户端与服务端处于同一服务可用区。所有测试均在华东2（上海）地域的可用区B完成。开源自建HBase使用社区1.4.9版本，为了对比...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...