大数据分析开源软件-大数据分析开源软件文档介绍内容-移动阿里云

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

什么是阿里云Elasticsearch

基于这些优化，您可以快速构建日志分析、异常监控、企业搜索和大数据分析等各业务应用，聚焦于业务应用本身，实现业务价值。产品组件在阿里云Elastic Stack产品生态下，Elasticsearch作为实时分布式搜索和分析引擎，Kibana实现灵活的可视...

组件操作

组件类型组件名称组件说明常用文档开源 Spark Spark是一个快速通用的大数据处理引擎，提供内存中数据处理能力，并支持批处理、实时处理、机器学习和图计算等多种数据处理模式。Spark Shell和RDD基础操作 Spark对接OSS 常见问题和故障...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

Serverless Spark 免费公测

使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。EMR Serverless Spark免费公测于2024年04月25日开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。免费试用结束后，产品将正常...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

OpenLDAP

Hive：使用LDAP认证 Spark：管理LDAP认证 Impala：管理LDAP认证 Trino：管理LDAP认证 Presto：管理LDAP认证 Kafka：使用LDAP用户鉴权如果某个服务没有提供一键开启LDAP认证的功能，则需要参考开源软件的社区文档来配置开启LDAP认证。...

综合：网站用户画像分析

计算引擎云原生大数据计算服务MaxCompute 本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark 中的任意一种作为 ...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

变更计算组规格

变更范围当前规格可变更规格标准规格内存增强型网络增强型内存增强型标准规格网络增强型网络增强型标准规格内存增强型高性能存储不可变更 大数据存储不可变更变更操作进入EMR Serverless StarRocks实例详情页面。...

ClusterSummary

OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING：运行中。TERMINATING：终止中。...

Flink

例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink主要用于以下场景：实时ETL（Extract-transform-load）和数据流 ...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

产品简介

企业专属知识库 GIS 时空大数据分析 离在线一体数据分析其他云数据仓库业务迁移（Greenplum、Redshift、Synapse、Snowflake、BigQuery等）客户行业游戏、零售、汽车零售、电商、教育节省成本共同点按实际数据量收取数据存储费用冷热...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

DataHub数据源

本文介绍如何使用DataHub数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName USING datahub OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);Table Schema 创建DataHub表时，无需显式定义表的字段信息，...

启用健康诊断

注意信息健康诊断仅支持数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，如需创建请参见创建集群。健康诊断提供集群异常健康问题定位和修复建议，目前已支持Hive...

安全责任共担

责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系，保障EMR产品内部使用的计算、存储、网络等基础设施的安全性。基于阿里云账号认证体系，...

实验介绍

实验用户信息数据结构 MySQL用户信息数据结构（ods_user_info_d）字段名称字段说明 uid 用户名 gender 性别 age_range 年龄分段 zodiac 星座实验目标数据结构根据原始数据分析可获得的有效数据，并基于业务需求确认最终数据表结构。...

开启和关闭释放保护

使用限制该功能仅适用于数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）类型的按量付费集群。开启或关闭释放保护系统默认关闭释放保护功能，您可以在创建集群时或创建...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。