本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 E-MapReduce 版本号 说明 2021-03-20 推荐使用。EMR Workbench 版本号 说明 2024-04-30 推荐使用...
如果您的E-MapReduce(EMR)集群需要和集群之外的数据库同步数据,确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例,分别介绍如何配置网络。云数据库RDS Sqoop是用map任务同步数据,可以在任意节点上运行,而Sqoop任务...
阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...
说明 仅EMR-3.43.0~EMR-3.44.1版本(均包含),EMR-5.9.0~EMR-5.10.1版本(均包含)的集群支持该功能,如果您要使用StarRocks Manager的功能,可以使用EMR Serverless StarRocks,详情请参见 什么是EMR Serverless StarRocks。访问查询页面...
id int NULL name string NULL Time taken:0.413 seconds,Fetched 2 row(s)配置参数说明 参数 描述 是否必选 url 数据库地址。是 driver 数据库连接的JDBC驱动。例如 com.mysql.jdbc.Driver”eper.quorum":"a.b.c.d:2181"}。是 dbtable ...
本文为您介绍什么是Catalog(数据目录),以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:保存在StarRocks中的数据。外部数据:保存在外部数据源(例如Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog ...
更多信息,请参见 什么是EMR Serverless Spark。控制台入口:立即前往。支持地域 中国地区 地域名称 地域ID 华北2(北京)cn-beijing 华东2(上海)cn-shanghai 华东1(杭州)cn-hangzhou 华南1(深圳)cn-shenzhen 华北3(张家口)...
背景信息 EMR Flink完全兼容开源Flink,相关内容请参见社区文档。例如:DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。技术领域 从技术领域的角度,Flink...
本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...
支持的源库 支持的目标库 支持的架构 支持的迁移类型 自建Redis 7.2及以下版本 Redis开源版 4.0、5.0、6.0、7.0版本 Tair(企业版)Redis开源版 4.0、5.0、6.0、7.0版本 Tair(企业版)标准架构 集群架构 读写分离架构 全量数据迁移 增量...
本文为您介绍什么是Catalog,以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:指保存在StarRocks中的数据。外部数据:指保存在外部数据源中的数据,例如Apache Hive、Apache Iceberg、Apache Hudi、Delta Lake及JDBC等。...
云原生多模数据库 Lindorm 推出一种新的索引类型,称为搜索索引(SearchIndex)。搜索索引主要 面向复杂的多维查询场景,能够覆盖分词、模糊查询、聚合分析、排序翻页等场景。搜索索引通过融合Lindorm宽表引擎(兼容开源HBase API)和...
与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性,并对比EMR-Delta Lake与开源Delta Lake(0.6.1)。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...
Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...
同步支持度 支持的源库 支持的目标库 支持的架构 支持的同步拓扑 自建Redis 7.2及以下版本 Redis开源版 4.0、5.0、6.0、7.0版本 Tair(企业版)Redis开源版 4.0、5.0、6.0、7.0版本 Tair(企业版)标准架构 集群架构 读写分离架构 单向同步...
jdbc_uri 是 JDBC驱动程序连接目标数据库的URI。如果使用MySQL,格式为:"jdbc:mysql:/ip:port。如果使用PostgreSQL,格式为:"jdbc:postgresql:/ip:port/db_name。driver_url 是 用于下载JDBC驱动程序JAR包的URL。对于Serverless ...
Tair(企业版)是基于阿里集团内部使用的Tair产品研发的云上托管企业级内存数据库,从2009年开始正式承载阿里集团业务,历经天猫双十一、优酷春晚、菜鸟、高德等业务场景的磨练,是一款真正的企业级内存数据库产品。实例存储介质 随着...
阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...
列存只读实例 开源与多云 PolarDB-X 在2021年11月份正式全内核开源,通过定期同步商业版本到开源版本(大约3~6个月),从而持续保持开源版本的迭代和功能对齐。在开源生态中,PolarDB-X 提供了配套的轻量化管控、生态工具的适配,可以基于...
产品优势 持久内存型基于持久内存技术,提供大容量、兼容Redis的内存数据库产品,数据持久化不依赖传统磁盘,保证每个操作持久化的同时提供近乎 Redis开源版 的吞吐和延时,极大提升业务数据可靠性。适用于兼容 Redis、大容量、服务抖动...
EMR-3.23.0之前版本 Hive 2.x 外部统一数据库保存至Hive Meta,所有使用外部Hive Meta的集群共享同一份Meta信息。EMR-4.x系列 EMR版本 组件版本 功能增强 EMR-4.10.0 Hive 3.1.2 修复了Hue查询历史记录时,中文乱码的问题。修复了Hue与...
E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 ...
EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...
创建 云数据库 Tair(兼容 Redis)实例前,您需要结合产品性能、价格、业务场景(例如用作高速缓存或内存数据库)、工作负载等因素,作出性价比与稳定性最优的决策。本文围绕以上因素,介绍产品类型、容灾方案、架构类型和实例规格,为您的...
测试数据量 本次实验测试数据量如下表所示:参数 说明 表数目 8 行数 64,000,000 总数据量 128 GB 性能结果 写场景 TPS/实例类型 PolarDB for PostgreSQL 14 开源PostgreSQL 14数据库 oltp_insert 43129.08 41161.66 oltp_update_index ...
EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...
Label是在一个数据库(Database)下唯一的,用于唯一标识一个导入作业。Label可由用户指定或系统自动生成。Label用于保证对应的导入作业,仅能成功导入一次。一个被成功导入的Label,再次使用时,会被拒绝并报错Label already used。通过该...
参数 描述 是否必选 默认值 username StarRocks数据库的用户名。是 无 password StarRocks数据库的密码。是 无 database StarRocks数据库的名称。是 无 table StarRocks表的名称。是 无 loadUrl StarRocks FE的地址,用于Stream Load,可以...
工作空间是EMR Notebook管理数据库、外部集群和笔记本的基本单元。通过工作空间,您可以创建和编辑Notebook文件,方便地上传和下载文件,与其他用户共享Notebook和数据,并灵活地管理访问权限。前提条件 已完成系统角色授权,详情请参见 ...
EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...
开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。
本文介绍 Ganos 时空服务与开源GeoMesa(HBase)、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境 本次性能测试中需要准备以下测试数据库,具体配置如下表:数据库 配置说明 云原生多模数据库 Lindorm 宽表引擎(已...
前提条件 实例状态为 运行中。...如果有未支付的订单,您必须先支付或作废未支付的订单。注意事项 扩缩容期间,服务可能出现中断,请确认业务使用方已增加重试机制。扩缩容期间,不可进行其他的升配,降配,修改配置,升级等操作。...
创建实例后,您可以通过增加FE节点的数量来实现扩容,以提升系统性能或承载更多业务流量;或者通过减少FE节点的数量来实现缩容,以优化资源利用率并降低运行成本。根据实际业务需求灵活调整节点数量,确保系统高效运行。...
EMR Studio上的Zeppelin与开源版本一致吗?如何设置Zeppelin Note的权限?Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗?EMR Studio上的Zeppelin是增强版的Zeppelin,与开源版本不一致。E-MapReduce的...
您需要登录图数据库GDB才能对数据库内的数据进行查询和分析,本教程以DMS为例介绍如何登录数据库。前提条件 已根据快速入门完成创建账号步骤,具体操作请参见 创建账号。操作步骤 登录 DMS数据管理服务控制台。单击页面左侧 数据库实例 旁...
Livy是一个通过REST接口或RPC client库与Spark服务进行交互的服务。Livy支持提交Spark作业或者Spark代码片段,同步或者异步的进行结果检索以及Spark Context上下文管理,Livy简化了Spark和应用程序服务器之间的交互,从而使Spark能够用于...
测试环境 本次测试对开源自建HBase与云数据库HBase增强版进行了多个场景的性能对比。网络类型为VPC网络,并保证客户端与服务端处于同一服务可用区。所有测试均在华东2(上海)地域的可用区B完成。开源自建HBase使用社区1.4.9版本,为了对比...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...