数据分析开源

_相关内容

开启和关闭释放保护

使用限制 该功能仅适用于数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)或自定义场景(Custom)类型的按量付费集群。开启或关闭释放保护 系统默认关闭释放保护功能,您可以在创建集群时或创建...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式 通过Flume导入 推荐使用Flume方式导入到JindoFS,利用Flume对HDFS的支持,...

使用新版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,...步骤六:消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于您快速提取关键信息,洞察数据背后的业务趋势。

集群规划

考虑因素说明 考虑因素 描述 相关文档 业务场景 阿里云EMR预定义了四类业务场景,分别为数据湖集群、数据分析集群、实时数据流集群和数据服务集群。此外,系统还支持自定义集群,您可以根据具体的业务选择相应的业务场景。选择业务场景 ...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句,无需下载或安装任何本地客户端软件,极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件 已创建StarRocks实例,详情请参见 创建实例。进入SQL Editor 进入EMR ...

使用DLF元数据

前提条件 已创建EMR-5.8.0及之后版本的数据分析(OLAP)或自定义场景(Custom)的集群,且选择了StarRocks服务,详情请参见 创建集群。注意事项 本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤 使用SSH方式登录StarRocks...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎,能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中,可通过在Impala中使用JindoFS SDK,高效...

Cluster

OLAP:数据分析。DATAFLOW:实时数据流。DATASERVING:数据服务。CUSTOM:自定义混部集群。HADOOP:旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围:STARTING:启动中。START_FAILED:启动失败。BOOTSTRAPPING:引导操作...

JDBC数据

本文介绍如何使用JDBC数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING jdbc2 OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建JDBC表时,无需显式地定义表的字段信息,示例...

查看弹性伸缩活动

前提条件 已创建数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)或自定义场景(Custom)的集群,详情请参见 创建集群。集群已配置弹性伸缩规则,详情请参见 创建自定义弹性伸缩策略、创建托管弹性...

加工数据

ods_user_info_d_spark 以及日志信息表 ods_raw_log_d_spark 访问存储在私有OSS中的用户与日志数据,通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据,阅读本文后,您可以了解如何通过Spark SQL来计算和分析已同步的数据,...

EMR包年包月优惠活动到期公告

2023年4月1日至2024年3月31日期间,为进一步帮助EMR老用户平滑过渡到EMR新平台,EMR老用户 新购*和 续费 数据湖(DataLake)、数据分析(OLAP)、实时数据流(DataFlow)、数据服务(DataServing)、自定义集群(Custom)等新集群类型,EMR...

Loghub数据

本文介绍如何使用Loghub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName(columnName dataType[,columnName dataType]*)USING loghub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema ...

配置自定义软件

数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)或自定义场景(Custom)的集群,需要包含后缀。例如,文件名称为 yarn-site.xml。旧版数据湖(hadoop),不需要后缀。例如,文件名称为 yarn-site...

API概览

GetDoctorHDFSDirectory 获取HDFS特定目录分析结果 通过EMR Doctor获取集群HDFS特定目录数据分析结果,目录不超过5级。ListDoctorJobsStats 批量获取任务运行汇总数据 通过EMR Doctor批量获取任务基本运行汇总信息。ListDoctorReports 批量...

Alluxio(仅对存量用户开放)

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...

尽力交付

前提条件 已创建数据湖(DataLake)、数据分析(OLAP)、实时数据流(DataFlow)、数据服务(DataServing)或自定义集群(Custom),详情请参见 创建集群。使用限制 手动扩容场景:仅按量付费类型的节点组,支持启用 尽力交付 功能。弹性扩...

克隆集群

前提条件 已创建数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)或自定义场景(Custom)的集群,详情请参见 创建集群。使用限制 如果已有集群的产品版本、业务场景或地域不再支持,则不支持克隆。...

配置数据质量监控

为保障任务产出的表数据符合预期,您可以对任务产出表数据进行数据质量监控。本文为您介绍如何配置表dwd_log_info_di_emr的数据质量...后续操作 数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见 数据可视化展现。

冷热分层

在数据湖架构设计中,通常会应用HTAP(Hybrid Transaction and Analytical Process)体系结构,通过合理地选择分层存储组件和计算引擎,既能支持海量数据分析和快速的事务更新写入,又能有效地降低冷热数据分离的成本。更多介绍请参见 结构...

监控数据质量

本文将以 ods_user_info_d_spark 表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在...后续操作 数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见 数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在...后续操作 数据加工完成后,您可以通过数据分析模块对数据进行可视化展示,详情请参见 数据可视化展现。

准备环境

OSS对象存储环境准备 本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。登录 OSS控制台。在左侧导航栏,单击 Bucket列表,在Bucket列表页面,单击 创建Bucket。在 创建...

开启部署集

使用限制 本文操作仅适用于新版数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)和自定义集群(Custom)场景的集群。创建集群时配置的节点组部署集,创建完成后不支持更改。仅Master和Core类型的...

管理工作空间

工作空间管理员可以加入成员至工作空间,并赋予工作空间管理员、数据分析、数据开发或访客角色,以实现多角色协同工作。本文为您介绍工作空间的基本操作。前提条件 已注册阿里云账号并完成实名认证。具体操作请参见 账号注册(PC端)。已...

组件操作

HDFS概述 HDFS常用命令 JVM内存调优 HBase HBase是一种分布式、面向列的开源数据库,其基于Hadoop文件系统构建,旨在为大型数据集提供低延迟的随机读写访问和高可靠性存储。使用HBase快照 使用HBase Shell 常见问题和故障诊断 Celeborn ...

管理元数据

Paimon:高性能数据湖场景 Iceberg:大规模数据分析场景 用户信息 系统自动显示当前用户和关联的RAM用户。如果没有关联的RAM用户,创建DLF Catalog后将无法访问DLF数据目录。确认配置信息无误,单击 确定 按钮完成DLF Catalog创建。创建...

通过Kyuubi Token对DLF数据的权限管控

业务场景 在企业级数据分析平台中,多个用户或应用需要通过统一的SQL网关(如Kyuubi Gateway)访问数据。为保障数据安全,必须隔离不同身份的访问,确保每个用户只能访问其权限范围内的数据。例如,分析师A只能查询业务报表,而数据工程师B...

选择地域和存储

适用场景 数据湖架构 冷数据分析 低延迟读写场景 数据可靠性 OSS支持本地冗余存储和同城冗余存储,提供了跨可用区的高可靠性保障。由云存储底层保障,数据丢失风险极低。依赖副本机制(本地盘默认3副本,云盘默认2副本),局限于集群内部,...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

准备环境

私有OSS环境准备 本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。登录 OSS控制台。在左侧导航栏,单击 Bucket列表,在Bucket列表页面,单击 创建Bucket。在 创建Bucket ...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

Flume

Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

低成本历史库

大数据生态 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。典型应用 用户交易记录通过App写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态...

文件元数据离线分析

EMR-3.30.0及后续版本的Block模式,支持dump整个namespace的元数据信息至OSS中,并通过Jindo Sql工具直接分析元数信息。背景信息 在HDFS文件系统中,整个分布式文件的元数据存储在名为fsimage的快照文件中。文件中包含了整个文件系统的命名...

变更计算组规格

网络增强型:1CU=1核 CPU+4 GiB 内存,网络带宽为标准规格的2倍以上,适用于外表分析数据扫描量较大的场景,使用ESSD云盘作为StarRocks存储。高性能存储:需要您选择详细规格。该规格类型使用本地SSD数据盘作为StarRocks存储,适用于对存储...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用