本章节展示如何将BI工具与大数据平台集成,构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化
RDS MySQL快速入门 RDS SQL Server快速入门 RDS PostgreSQL快速入门 RDS MariaDB快速入门 数据库引擎简介 RDS MySQL MySQL MySQL是全球受欢迎的开源数据库之一,作为开源软件组合LAMP(Linux+Apache+MySQL+Perl/PHP/Python)中的重要一环,...
适用场景 OLAP多维分析 用户行为分析 用户画像、标签分析、圈人 高维业务指标报表 自助式报表平台 业务问题探查分析 跨主题业务分析 财务报表 系统监控分析 实时数仓 电商大促数据分析 教育行业的直播质量分析 物流行业的运单分析 金融行业...
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink,相关内容请参见...
数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...
功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...
SmartData是E-MapReduce(简称EMR)产品的核心自研组件,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展,涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...
2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态。如果您还在使用旧版控制台的数据开发功能,请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...
类别 云数据库HBase增强版(Lindorm)HBase开源版 核心功能 HBase API 支持 支持 数据模型 支持宽列(HBase API)、表格(SQL-Like API)、队列等多种,对其他模型感兴趣的话,请联系我们。仅支持宽列 全局二级索引 内置,查询透明、高性能...
使用限制 仅保存最近30天内的报表数据,超出此期限的数据将不再保留。注意事项 监控指标中包含了root账号相关的信息,例如每分钟查询数等。root账号是阿里云EMR Serverless StarRocks控制台用于管理集群的专用账号,该账号对客户不可见,...
2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...
Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
Kafka Manager是专为Kafka设计的集群管理工具,提供了WebUI界面,允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI,并将集群添加至Kafka Manager的WebUI界面。前提条件 已创建选择了Kafka服务的...
应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...
AI训练加速 文档链接 视频链接 视频发布时间 描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的...
集群运行 开源项目运行示例如下:Spark SparkWordCount:spark-submit-class SparkWordCount examples-1.0-SNAPSHOT-shaded.jar inputPath outputPath numPartition 参数说明如下:参数 描述 inputPath 输入数据路径。outputPath 输出路径...
例如,分析师A只能查询业务报表,而数据工程师B可以访问底层的原始数据集。此方案解决多租户环境下的数据权限隔离问题,实现端到端的身份认证与权限管控。实施步骤 步骤一:准备环境与RAM用户权限 准备基础资源。已创建工作空间,详情请...
当您的集群因大量的写入和删除,或者由于磁盘更换和扩容等操作,导致数据在节点上的磁盘之间分布不均匀,引起HDFS并发读写性能的下降等问题时,可通过HDFS Diskbalancer将数据均匀地分布在DataNode的所有磁盘上。本文为您介绍HDFS ...
Notebook 促进了数据分析师和数据工程师之间的协作,支持快速原型设计和实验,是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...
本文列出 Tair(企业版)各形态产品与 Redis开源版 产品的相关特性对比,为您的产品选型提供相关参考。选型参考 类别 系列 特点 适用场景 Tair(企业版)内存型 超高性能:采用多线程模型,读写性能达到同规格 Redis开源版 实例的3倍,更多...
大数据分析(Hive/Spark 报表):减少报表生成时间,优化计算集群成本。湖仓一体:减少请求费用,优化数据目录(catalog)的响应延迟。AI:加速训练等场景,降低AI集群使用成本,提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...
除了通过EMR控制台提供的链接地址访问开源组件Web界面外,还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理,您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 ...
Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...
为了更好地融入开源生态,提供更加开放和多样...您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本,版本说明请参见 Apache Flink 1.17.2 Release Announcement。
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...
监控场景:通常用户只会查看近期的监控,只有在调查问题或者制定报表时才会查询历史数据。例如云监控。账单场景:通常用户只会查询最近几天或者一个月内的账单,不会查询超过一年以上的账单。例如支付宝。物联网场景:通常设备近期上报的...
说明 如果要对大批量复制数据进行验证,可以使用VerifyReplication工具验证,该工具使用详情请参见 Verifying Replicated Data。相关文档 开启串行Replication,请参见 Serial Replication。开启同步Replication,请参见 Synchronous ...
本章节介绍如何通过多种工具和框架提交和调度大数据任务,支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务 通过Serverless Spark提交PySpark流任务 通过spark-submit提交任务 通过Apache Airflow提交...
本文介绍 Ganos 时空服务与开源GeoMesa(HBase)、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境 本次性能测试中需要准备以下测试数据库,具体配置如下表:数据库 配置说明 云原生多模数据库 Lindorm 宽表引擎(已...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
本章节提供基础工具的操作指南,帮助用户高效完成数据存储、管理和运维相关任务。在Notebook中使用Hadoop命令操作OSS/OSS-HDFS
创建包含HBase服务的...HBase主要通过命令行工具(HBase Shell)、Java API以及其他一些接口(如REST API和Thrift)来提供数据的增删改查操作。相关文档 您可以查看Apache HBase Shell官方文档了解更多信息,详情请参见 Apache HBase官网。
分析报表 支持 哪些方式导出?支持在 数据安全中心 DSC(Data Security Center)控制台,导出 HTML 、Word 或 图片 格式的报表。具体内容,请参见 查看报表。
OpenLDAP是一种开源软件,您可以使用OpenLDAP提供的命令行工具ldapadd、ldapdelete、ldapmodify等来管理用户,使用ldif文件进行用户管理。这种方式需要参考OpenLDAP开源社区的文档来进行操作。开源文档请参见 OpenLDAP。
与开源Zeppelin相比,E-MapReduce(简称EMR)数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例 运行hadoop命令 执行如下命令会显示当前EMR集群根目录下的所有文件,切换...
场景说明 本测试场景中SSB的生成工具中使用SF(scale factor)控制生成数据量的大小,1SF对应1 GB。说明 以上数据量仅针对原始数据的数据量,不包括索引等空间占用,因此在准备环境时,您需要预留更多的空间。准备工作 您需要准备OLAP查询...
HDFS Balancer工具可以用来分析块的分布情况,并且可以重新分配DataNode中的数据。本文为您介绍如何使用HDFS Balancer工具,以及Balancer的主要调优参数。背景信息 HDFS采用主从架构,其中NameNode管理文件系统的元数据(例如文件名、文件...
在EMR集群中,为了确保集群安全,Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面,可根据实际场景选择 原生UI地址、Knox代理地址、SSH本地端口转发 或 SSH动态端口转发 方式进行访问。快速...
为了更好地满足各种不同的业务场景,StarRocks支持多种数据模型,StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息...