基于开源工具的数据分析-基于开源工具的数据分析文档介绍内容-移动阿里云

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

功能特性

数据分析：即时快速分析 数据分析基于“人人都是数据分析师”的目标，旨在为更多非专业数据开发人员，如数据分析、产品、运营等工作人员提供更加简洁高效的取数、用数工具，提升大家日常取数分析效率。功能概述数据分析支持基于个人视角的...

ETL工具支持概览

阿里云的数据集成服务（Data Integration）：阿里云提供的ETL工具。在数据集成服务中，将 AnalyticDB PostgreSQL版配置为一个PostgreSQL数据库，即可实现其他数据源（RDS、MaxCompute、TableStore等）到 AnalyticDB PostgreSQL版 的数据...

计算设置

StarRocks StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。使用StarRocks作为元仓计算引擎进行元仓初始化 Lindorm（计算引擎）...

计算设置概述

StarRocks StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。使用StarRocks作为元仓计算引擎进行元仓初始化 Lindorm（计算引擎）...

Spark Shell和RDD基础操作

启动Spark Shell Spark的Shell作为一个强大的交互式数据分析工具，提供了一个简单的方式学习API。Spark既可以使用Scala，也可以使用Python。您可以按照以下操作步骤来启动Spark Shell。使用SSH方式登录集群的Master节点，详情请参见登录...

湖仓一体新能力：EMR支持Hologres和MaxCompute数据源

阿里云E-MapReduce（简称EMR）支持Spark、Trino计算引擎直接访问Hologres和MaxCompute表，为您提供了更加完善的湖仓一体化的解决方案，以及更加高效、稳定的数据分析体验。背景信息 Hologres 是阿里巴巴自主研发的一站式实时数仓引擎，支持...

测试结果分析

前提条件基于以下环境配置，性能测试工具和测试方法分析本文的测试结果。环境配置的详情请参见测试环境。性能测试工具的使用请参见性能测试工具。测试方法请参见测试方法。吞吐量对比测试结果相同规格下，20亿行数据量的吞吐量对比...

使用DLF元数据

前提条件已创建EMR-5.8.0及之后版本的数据分析（OLAP）或自定义场景（Custom）的集群，且选择了StarRocks服务，详情请参见创建集群。注意事项本文仅适用于Hive、Hudi、Iceberg和Delta Lake数据源。操作步骤使用SSH方式登录StarRocks...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

什么是EMR on ECS

基于开源组件，优化和增强阿里云部署环境，性能远高于开源版本。易用性分钟级搭建大数据计算环境，支持一键调整计算资源规模，无需人工部署和启动服务。完善的监控和告警体系，支持智能诊断分析，大幅缩减排障路径，提升运维效率。节约...

最佳实践

基于PolarDB的图分析：保险数据分析实践基于PolarDB，使用图数据库插件，通过图查询发现欺诈交易的关联关系，计算交易间的Jaccard相似度，从而进行欺诈预警。基于PolarDB的图分析：银行金融领域图分析实践使用PolarDB、通义千问和...

通过Quick BI连接StarRocks实例

适用客户全网用户新增功能/规格添加StarRocks数据源用于连通StarRocks数据库与Quick BI，连接成功后，您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何通过Quick BI连接StarRocks实例。产品文档通过Quick BI连接StarRocks...

组件操作

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术，提供统一的数据访问入口，支持跨多种底层存储。Alluxio 数据集成数据集成层的组件提供数据批量传输、实时消息流处理和分布式日志收集的能力，提升数据传输效率和数据...

快速入门

应用性能监控分析服务（APM）APM是阿里云基于开源Elastic Stack构建的性能监控服务，支持一键快速创建APM Server节点实例，并采集处理应用性能数据，投递至阿里云Elasticsearch集群进行存储分析。入门操作，请参见 APM应用性能监控。相关...

客户案例

庞大的运营计数会产生海量数据，需做好数据分析，为游戏运营提供更好的数据服务。客户需求希望优化数据体系结构，解决如下难点、痛点问题：业务团队对全域数据资产无感知，且数据需求响应时间长。组件繁多，运维、开发成本高。昼夜资源...

什么是阿里云Elasticsearch

Kibana Kibana是灵活的数据分析和可视化工具，支持多用户登录。在Kibana中，您可以搜索和查看Elasticsearch索引中的数据，并进行交互。创建阿里云Elasticsearch集群时，系统会自动部署独立的Kibana节点，您可以根据业务需求，灵活使用图表...

功能特性

数据分析 SQL查询第三方工具数据库管理工具通过数据库管理工具连接MaxCompute，目前主要支持DBeaver、DataGrip、SQL Workbench/J。数据库管理工具 ETL工具连接通过ETL工具连接MaxCompute并进行开发作业调度，目前主要支持Kettle、...

应用场景

数据分析：实现了实时数据分析生成的数据可以直接用于Serving，从而实现了实时和离线数据的统一融合。实时数据建模：提供了实时数据建模聚合表，以支持实时聚合能力。强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新：...

核心特性

在开源生态中，PolarDB-X 提供了配套的轻量化管控、生态工具的适配，可以基于开源完成业务的生产部署，满足开源自建、多云容灾等自主可控的需求。功能集功能功能描述参考文档开源全内核开源包含多个分布式组件，CN、DN、CDC、GMS、...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

全局配置

基于分析主题问数开启后，在基于分析主题问数时，如果一个问题命中了单个数据集，自动将后续提问聚焦于该数据集，无需重复选择。关闭后，小Q不会自动聚焦于某个数据集，而是针对每次提问，系统智能选择最相关的数据集进行回答。交互式选...

应用场景

模块化的工具和流程，版本化管理，用户可以创建或者编辑自己的生信流程，适配不同类型数据分析要求。测序生产自动化测序仪下机数据，自动上传到平台，满足条件后自动触发质控和数据分析，可高效完成用户实验室大批量样本标准化生产交付...

X-Pack高级特性

X-Pack高级特性（开源Elasticsearch白金版）是基于开源Elasticsearch原X-Pack商业版插件开发的，包含了安全、SQL、机器学习、告警、监控等多个高级特性，从应用开发和运维管理等方面增强了Elasticsearch的服务能力。阿里云Elasticsearch...

产品形态选型

EMR Serverless StarRocks 通过向量化、MPP架构以及全新CBO等技术，为用户提供最优性能的数据分析服务。跨引擎联邦查询，多种湖格式适配，智能物化视图，为用户提供统一的湖仓加工和分析引擎。云原生与全托管服务形态，提高用户使用和运维...

分布式框架Ray

AnalyticDB Ray基于开源Ray的丰富生态，通过多模态处理、具身智能、搜索推荐、金融风控等典型场景的验证，对Ray内核和服务能力进行了全面增强，优化了内核性能，简化了集群运维，并与 AnalyticDB for MySQL 湖仓平台无缝集成，助力企业构建...

产品优势

HBase Shell 黑屏工具数据查询集群管理系统内支持图形化SQL交互查询，请参见数据查询，也支持使用开源工具HBase Shell/CQLsh。HBase Shell CQLsh 生态体系数据搬迁支持与HBase/Cassandra各个版本之间的在线、跨版本、自动化、高效搬迁...

概览

AnalyticDB PostgreSQL版提供多种数据迁移方案，可满足不同的数据同步或迁移的业务需求，您可以在不影响业务的情况下，平滑地与各种类型的数据库实例进行迁移或数据同步。迁移数据到AnalyticDB PostgreSQL版迁移类型文档简介是否支持...

功能特性

创建Gateway集群配置Gateway集群为了方便部署Gateway环境，E-MapReduce提供了名为EMR-CLI的工具，它基于阿里云ECS来创建实例并部署Gateway环境。使用EMR-CLI自定义部署Gateway环境 EMR on ACK 功能集功能功能描述参考文档集群管理 ...

产品架构

本文为您介绍云数据库专属集群MyBase开放版的架构，以便您直观地了解产品的构成。...在MyBase中创建的数据库实例，可以一键接入阿里云数据库生态工具，例如DMS、DBS、DTS、DAS，方便快捷地体验高级工具的能力。三方产品待上线。

云原生数据湖分析

云原生数据湖分析（Data Lake Analytics，简称DLA）是无服务器（Serverless）化的数据湖分析服务，支持按需与保留资源使用，打造最具性价比的数据湖分析平台；提供一站式的数据湖分析与计算服务，支持 ETL、机器学习、流、交互式分析，可以...

开源支持

Data Collector是MaxCompute主要开源数据采集工具的集合，包括：Flume插件 OGG插件 Sqoop Kettle插件 Hive Data Transfer UDTF Flume和OGG插件是基于DataHub的SDK实现，而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。...

Dify on DMS

本文为您介绍阿里云数据管理DMS集成的强大功能——Dify on DMS，您可以无需编写复杂代码，也无需进行数据迁移，即可安全、高效地在您的数据库上构建专属AI应用，例如：智能数据问答、企业知识库、SQL代码生成器等。重要 Dify实例容器环境...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

什么是EMR Serverless Spark

其设计理念是打造一个统一平台，融合多种应用场景，让用户无需切换工具即可高效完成从数据分析到模型训练的全流程工作。平台能力层该系统主要为上层场景提供支撑，通过工作流编排实现批处理、流计算以及人工智能作业的多场景混合调度。...

新功能发布记录

2022-10-21 使用HBase Shell 数据服务集群 DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。2022-10-28 数据服务集群 09月功能名称功能概述发布时间相关文档自动补偿开启自动补偿功能后，当E-MapReduce...

如何选择产品类型

提供基于容器化部署的数据服务，支持数据服务动态扩展和独立升级。数据服务不提供场景化数据服务能力，您可以根据业务需求通过Runtime中的组件搭建对应功能。Data Warehouse（数据仓库）Machine Learning（机器学习）Data Engineering...

产品优势

开源社区支持，拥有众多开发者工具和分析应用在内的社区资源。没有流程标准，无法迁移，难以版本化管理。缺少相应的开发、校验和可视化的配套支持。应用生态与Sentieon等工具开发者合作，为平台用户提供开箱即用的工具镜像、加速软件算法...

简介

本文主要介绍HBase Ganos的功能、优势和使用场景。重要 HBase增强版已全新升级为云原生多模...原生提供基于“分块”理念的数据存储和组织方式，保留原始像元信息，有效支撑各类分析计算场景。与Spark集成，ETL与多源空间数据分析处理更便捷。