开源的数据分析工具-开源的数据分析工具文档介绍内容-移动阿里云

ETL工具支持概览

dbsync：阿里云提供的开源数据库同步工具。支持从MySQL、PostgreSQL并发同步数据到 AnalyticDB PostgreSQL版。支持简单的数据转换。支持通过解析Binlog，准实时地从MySQL同步数据到 AnalyticDB PostgreSQL版。其他支持Greenplum的ETL工具。

Spark Shell和RDD基础操作

启动Spark Shell Spark的Shell作为一个强大的交互式数据分析工具，提供了一个简单的方式学习API。Spark既可以使用Scala，也可以使用Python。您可以按照以下操作步骤来启动Spark Shell。使用SSH方式登录集群的Master节点，详情请参见登录...

JindoFS实战演示

AI训练加速文档链接视频链接视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

阿里云E-MapReduce（简称EMR）支持Spark、Trino计算引擎直接访问Hologres和MaxCompute表，为您提供了更加完善的湖仓一体化的解决方案，以及更加高效、稳定的数据分析体验。背景信息 Hologres 是阿里巴巴自主研发的一站式实时数仓引擎，支持...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

通过Quick BI连接StarRocks实例

适用客户全网用户新增功能/规格添加StarRocks数据源用于连通StarRocks数据库与Quick BI，连接成功后，您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何通过Quick BI连接StarRocks实例。产品文档通过Quick BI连接StarRocks...

应用场景

数据分析：实现了实时数据分析生成的数据可以直接用于Serving，从而实现了实时和离线数据的统一融合。实时数据建模：提供了实时数据建模聚合表，以支持实时聚合能力。强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新：...

低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

云原生数据湖分析

云原生数据湖分析（Data Lake Analytics，简称DLA）是无服务器（Serverless）化的数据湖分析服务，支持按需与保留资源使用，打造最具性价比的数据湖分析平台；提供一站式的数据湖分析与计算服务，支持 ETL、机器学习、流、交互式分析，可以...

应用场景

模块化的工具和流程，版本化管理，用户可以创建或者编辑自己的生信流程，适配不同类型数据分析要求。测序生产自动化测序仪下机数据，自动上传到平台，满足条件后自动触发质控和数据分析，可高效完成用户实验室大批量样本标准化生产交付...

EMR Workbench

通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作流。功能介绍 EMR Notebook 交互式编程环境：支持Jupyter笔记本，提供灵活的编程环境。多语言支持：允许使用Python、SQL等多种语言进行数据分析...

功能特性

数据分析：即时快速分析 数据分析基于“人人都是数据分析师”的目标，旨在为更多非专业数据开发人员，如数据分析、产品、运营等工作人员提供更加简洁高效的取数、用数工具，提升大家日常取数分析效率。功能概述 数据分析支持基于个人视角的...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

组件操作

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术，提供统一的数据访问入口，支持跨多种底层存储。Alluxio 数据集成数据集成层的组件提供数据批量传输、实时消息流处理和分布式日志收集的能力，提升数据传输效率和数据...

什么是阿里云Elasticsearch

Kibana Kibana是灵活的数据分析和可视化工具，支持多用户登录。在Kibana中，您可以搜索和查看Elasticsearch索引中的数据，并进行交互。创建阿里云Elasticsearch集群时，系统会自动部署独立的Kibana节点，您可以根据业务需求，灵活使用图表...

什么是EMR on ECS

相关文档 EMR支持数据湖场景、数据分析场景、实时数据流场景、数据服务场景，具体请参见应用场景。想了解EMR各版本支持的组件情况，请参见各版本支持的组件。想了解EMR集群的运维与监控能力，请参见集群运维和集群监控。

产品简介

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...

什么是EMR Notebook

产品优势 EMR Notebook可以为大数据用户带来全新的数据分析和数据开发体验。统一平台 EMR Notebook支持多种开发语言，包括SQL和Python等。不论是进行SQL交互式查询还是PySpark程序开发，都可以在同一个开发环境中完成，无需在多种工具中...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件已创建StarRocks集群，详情请参见创建StarRocks集群。说明此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务，详情请参见 ...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

产品架构

数据湖分析版：通过StarRocks外部表，直接读取数据湖（例如对象存储或HDFS）中的Hive格式或湖格式的数据，采用DataLake Table Format。StarRocks实例：全部实例（包括前端FE，后端BE或CN）都在云端托管，实现免运维。通过计算组（Warehouse...

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

测试案例

步骤二：执行测试以下分别为您介绍TPC-DS在100 GB、1 GB规模的数据集上进行性能测试的步骤。TPC-DS 100 GB 初始化数据库和表。单击 TPC-DS-100G-01.初始化数据库和表，即可查看用于初始化数据库与表的SQL脚本。单击运行，执行SQL脚本，待...

创建集群

支持多种数据源，适合PB级海量数据的复杂分析，以及跨数据源的查询。Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的...

实时数据消费

为您提供了一个强大的工具，用于结合流处理和批处理的数据分析。更多信息，请参见实时消费Kafka数据。使用场景构建实时分析报表及其他实时分析应用。结合增量实时物化视图构建流批一体的实时数仓。在采用SQL方式写入数据（UPSERT或UPDATE...

测试结果分析

本文介绍云原生多模数据库 Lindorm 与开源HBase的吞吐量对比、毛刺率对比和压缩率对比的测试结果。前提条件基于以下环境配置，性能测试工具和测试方法分析本文的测试结果。环境配置的详情请参见测试环境。性能测试工具的使用请参见性能...

快速入门

Beats Beats是轻量级的数据采集工具，支持一键部署采集器，可视化采集与配置日志文件、网络数据、容器指标等多种类型数据，并集中管理多个采集器。入门操作，请参见入门概述。高级监控报警基于Elasticsearch开发的，具备采集、监控、报警...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

Hadoop集群迁移至DataLake集群

数据存储架构：分析旧集群的数据存储架构（本地HDFS、OSS、JindoFS block模式），为后续数据迁移路径设计提供依据。用户认证&鉴权架构：确认是否使用旧平台集群OpenLDAP、Ranger、Kerberos等服务，确保迁移后的新架构能够无缝继承现有的...

功能特性

数据分析 SQL查询 SQL查询功能支持通过编写SQL语句的方式对有查询权限的数据源进行快速的数据查询与分析。数据分析 SQL查询第三方工具数据库管理工具通过数据库管理工具连接MaxCompute，目前主要支持DBeaver、DataGrip、SQL Workbench/J...

开源支持

Data Collector是MaxCompute主要开源数据采集工具的集合，包括：Flume插件 OGG插件 Sqoop Kettle插件 Hive Data Transfer UDTF Flume和OGG插件是基于DataHub的SDK实现，而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。...

Hadoop DistCp介绍

Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容S3接口的对象存储的数据源。导入HDFS数据至OSS或OSS-HDFS服务。导入S3数据至OSS或OSS-HDFS服务。使用方法 Hadoop DistCp最常见的调用是集群间拷贝，例如将nn1集群的/foo/...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

数据可视化

强大的数据分析能力，支持复杂报表和仪表盘。与阿里云生态无缝集成。学习曲线较陡，新手可能需要时间适应。高级功能可能需要额外付费。Quick BI数据可视化 Grafana 监控和分析多种数据源，实现实时数据展示。支持多种数据源，灵活性高。...

ClickHouse

EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础上优化了ClickHouse的读写性能，提升了ClickHouse与EMR其他组件快速集成的能力。特性特性描述列式...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、...