大数据分析开源工具-大数据分析开源工具文档介绍内容-移动阿里云

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

支持的数据源

数据入仓适用于对后续数据分析性能有较高要求的业务场景。数据入湖：将原始数据以开源的Iceberg、Paimon等表格式导入至数据湖中。数据湖可以是 AnalyticDB for MySQL 提供的湖存储，也可以是您自有的OSS Bucket。数据湖具有开源开放的特点...

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

EMR与自建Hadoop集群对比优势

开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和分析场景。对比项阿里...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

DeltaLake

在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在如下问题：数据导入可能会失败，失败后清理脏数据和恢复作业困难。方案中没有ETL（Extract Transform Load）过程，缺少必要的数据质量监管。方案中没有事务...

开源支持

Python SDK PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作和DataFrame框架，让您可以轻松地在MaxCompute上进行数据分析。更多详情请参见GitHub项目 aliyun-odps-python-sdk 和包括所有接口、类的细节等详细内容的 ...

整体架构

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...

什么是EMR Serverless Spark

其设计理念是打造一个统一平台，融合多种应用场景，让用户无需切换工具即可高效完成从数据分析到模型训练的全流程工作。平台能力层该系统主要为上层场景提供支撑，通过工作流编排实现批处理、流计算以及人工智能作业的多场景混合调度。...

X-Pack高级特性

索引生命周期管理数据层冻结索引快照和还原可搜索快照纯源快照快照生命周期管理数据汇总数据流 CLI工具升级助手UI 升级助手API 用户和角色管理 Transforms ALERTING 高可用性、可扩展警报通知 Alerting UI STACK安全性安全设置 ...

什么是EMR Serverless StarRocks

StarRocks介绍 StarRocks是一款支持MySQL协议的分析型数据库，它集成了向量化处理、MPP架构、代价基础优化器（CBO）、智能物化视图和实时更新的列式存储技术，从而实现了快速、实时、高效的多维数据分析。您可以轻松地将实时或离线数据源...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

应用场景

这些分析引擎具备高效的数据压缩、列式存储及并行查询等特性，使其在大数据分析场景中表现出色。它们可广泛应用于用户画像、人群圈选、商业智能等多种业务分析场景。在数据分析场景下，以StarRocks分析引擎为例，阿里云EMR通过以下流程实现...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

什么是云原生多模数据库Lindorm

多模型的核心能力主要由以下几大数据引擎提供，包括：数据引擎核心能力宽表引擎负责宽表与对象数据的管理和服务，具备全局二级索引、多维检索、动态列、TTL等能力，适用于元数据、订单、账单、画像、社交、feed流、日志等场景，兼容...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

Lindorm for Cassandra应用实践

具备弹性伸缩、低成本、简单易用、开放、稳定等优势，适合元数据、日志、账单、标签、消息、报表、维表、结果表、Feed流、用户画像、设备数据、监控数据、传感器数据、小文件、小图片等数据的存储和分析。其核心能力包括：融合多模：支持宽...

Serverless Spark 免费公测

使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。EMR Serverless Spark免费公测于2024年04月25日开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。免费试用结束后，产品将正常...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

免费体验Lindorm宽表性能&价格力

背景云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务，支持MySQL协议，兼容HBase、Elasticsearch、Hive、Spark、HDFS 等开源标准。...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

产品优势

Spark分析产品化深度集成，支持Spark SQL分析HBase，HBase数据到Spark（HDFS/OSS）的增量归档，离线分析结果回流到HBase等。无优化，数据集成需要较大开发。MaxCompute 产品化集成，请参见全量导出MaxCompute。数据集成需要较大开发。...

EMR Spark功能增强

用户可以创建Relational Cache对数据进行预计算，在执行用户查询时，Spark Optimizer自动发现合适的Cache，并改写SQL执行计划，基于Cache的数据继续计算，从而提升查询速度，适用于报表、Dashboard、数据同步和多维分析等场景。通过DDL，...

EMR旧版数据开发迁移公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态。如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...

综合：网站用户画像分析

计算引擎云原生大数据计算服务MaxCompute 本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark 中的任意一种作为 ...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

产品架构

架构图 MyBase on ECS MyBase on ACK 架构说明云数据库专属集群MyBase开放版由四类产品组成：社区开源产品集成社区开源数据库引擎和管控工具，例如MySQL，Orchestrator、Prometheus等。MyBase开源增强 MyBase给予开源社区版本的组件，...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析 教育行业的直播质量分析物流行业的运单分析金融行业...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

变更计算组规格

变更范围当前规格可变更规格标准规格内存增强型网络增强型内存增强型标准规格网络增强型网络增强型标准规格内存增强型高性能存储不可变更 大数据存储不可变更变更操作进入EMR Serverless StarRocks实例详情页面。...