基于开源工具的数据分析-基于开源工具的数据分析文档介绍内容-移动阿里云

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

什么是可观测监控 Prometheus 版

数据分析：可观测监控 Prometheus 版 100%兼容 PromQL 语法，支持用户基于 PromQL 进行自定义分析和探索，同时提供指标管理能力帮助用户洞察指标的分布和高基数情况。数据导出：可观测监控 Prometheus 版支持实时投递能力，可以将指标数据...

什么是可观测监控 Prometheus 版

数据分析：可观测监控 Prometheus 版 100%兼容 PromQL 语法，支持用户基于 PromQL 进行自定义分析和探索，同时提供指标管理能力帮助用户洞察指标的分布和高基数情况。数据导出：可观测监控 Prometheus 版支持实时投递能力，可以将指标数据...

什么是可观测监控 Prometheus 版

数据分析：可观测监控 Prometheus 版 100%兼容 PromQL 语法，支持用户基于 PromQL 进行自定义分析和探索，同时提供指标管理能力帮助用户洞察指标的分布和高基数情况。数据导出：可观测监控 Prometheus 版支持实时投递能力，可以将指标数据...

JDBC Catalog

基于JDBC Catalog，结合INSERT INTO能力对JDBC数据源的数据实现转换和导入。创建JDBC Catalog 语法 CREATE EXTERNAL CATALOG catalog_name[COMMENT comment]PROPERTIES("key"="value",.);参数说明 catalog_name：JDBC Catalog的名称，必选...

Fluss Catalog（Beta）

基于Fluss Catalog，结合INSERT INTO能力对Fluss数据源的数据实现转换和导入。创建Fluss Catalog 语法 CREATE EXTERNAL CATALOG catalog_name[COMMENT comment]PROPERTIES("type"="fluss",CatalogParams);参数说明 catalog_name：Fluss ...

产品架构

外部生态云数据库 SelectDB 版支持与周边数据生态中的数据源及可视化工具进行集成，显著提升数据分析的便捷性。丰富的数据导入工具：云数据库 SelectDB 版可从多种数据源（阿里云数据源、自建数据源）进行数据导入，提供稳定、高效、...

产品教程

订阅成功后，账单数据将会定时同步至MaxCompute，您可使用DataWorks的数据分析功能查询并分析账单数据，将分析结果生成可视化图表卡片及报告，同时，也可将您的阿里云消费分析报告分享给其他用户。MaxCompute 数据分析 Github实时数据同步...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

HBase版本选择

目前HBase企业标准版有1.1版和2.0版本，分别基于开源HBase1.1.2版本和HBase2.0.0版本打造，100%兼容社区HBase。云数据库HBase增强版 HBase增强版是基于云原生多模数据库内核研发的、完全兼容HBase的云上托管数据库，已经在阿里集团内部发展...

Hadoop集群迁移至DataLake集群

数据存储架构：分析旧集群的数据存储架构（本地HDFS、OSS、JindoFS block模式），为后续数据迁移路径设计提供依据。用户认证&鉴权架构：确认是否使用旧平台集群OpenLDAP、Ranger、Kerberos等服务，确保迁移后的新架构能够无缝继承现有的...

时空服务介绍

GeoMesa接口 Lindorm Ganos 时空服务GeoMesa接口兼容开源GeoMesa、GeoServer等生态，可广泛应用于空间或时空数据存储、查询、分析与数据挖掘等场景。流引擎接口功能特性特性描述时空内存索引 Lindorm Ganos 时空服务在Lindorm流引擎中...

数据可视化

强大的数据分析能力，支持复杂报表和仪表盘。与阿里云生态无缝集成。学习曲线较陡，新手可能需要时间适应。高级功能可能需要额外付费。Quick BI数据可视化 Grafana 监控和分析多种数据源，实现实时数据展示。支持多种数据源，灵活性高。...

云数据库 Tair（兼容 Redis®）

云数据库 Tair（兼容 ...云数据库 Tair提供Redis开源版和Tair（企业版）两种内核供您选择：Redis开源版内核基于开源代码进行强化，而Tair内核则在此基础上增加了大量企业级特性，能够覆盖Redis开源版难以应对的场景，并提供稳定可靠的服务。

计算引擎

Lindorm计算引擎是一款基于云原生多模数据库 Lindorm 核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务，满足用户在云原生多模数据库 Lindorm 支撑场景下的数据生产、交互式分析、机器学习和图计算等场景中的计算需求...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

JindoFS实战演示

Spark对OSS上的OCR数据进行查询加速 Spark对OSS上的OCR数据进行查询加速 2021-07-20 当前数据湖市场规模正在飞速增长，随着数据规模的增长，基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储，相对于本地存储，其...

产品架构

在Lindorm系统中，LindormSearch 既可以作为一种独立的模型，提供半结构化、非结构化数据的松散文档视图，适用于日志数据分析、内容全文检索；也可以作为宽表引擎、时序引擎的索引存储，对用户保持透明，即宽表/时序中的部分字段通过内部的...

功能特性

会话线索支持根据时间、客户端IP、客户端端口、服务端IP、服务端端口、数据库账号、资产信息、数据库实例、客户端工具、数据库类型、主机名等多角度分析会话。详细语句线索支持根据时间、报文检索、资产信息、数据库账号、SQL模板、客户...

什么是MaxCompute

视频简介产品简介 MaxCompute是面向分析的 企业级 SaaS 模式智能化云数据仓库，以Serverless架构提供全托管、开箱即用的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制。计算存储的智能优化能力、开放的湖仓一体架构...

技术架构

闭环的生态工具：数据管理DMS，基于阿里巴巴集团十余年的数据库服务平台的云版本，提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的Web数据库管理终端，可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库...

实践教程

即席查询数仓场景：增量数据实时统计数仓场景：分钟级准实时分析 EMR Serverless Spark 通过Serverless Spark提交PySpark流任务通过spark-submit命令行工具提交Spark任务通过Apache Airflow使用Livy Operator提交任务通过Apache ...

产品简介

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...

云数据库 ClickHouse

云数据库ClickHouse是开源列式数据库ClickHouse的云上托管服务，数据库内核...阿里云提供了一套企业级数据库管理平台，增强了数据安全、集群动态扩容、监控运维等企业级功能，与云上其他数据产品打通，可以便捷地构建云上海量数据分析平台。

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

数据可视化展现

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据分析与服务数据分析，单击进入数据分析页面，单击左侧导航栏的 SQL查询进入SQL查询页面。配置SQL查询数据源数据源授权。在数据分析中使用数据源，需要先给数据源授权...

数据可视化展现

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据分析与服务数据分析，单击进入数据分析页面，单击左侧导航栏的 SQL查询进入SQL查询页面。配置SQL查询数据源数据源授权。在数据分析中使用数据源，需要先给数据源授权...

低成本RDS历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

应用场景：低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过APP写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

创建集群

数据分析（OLAP）：将海量数据通过导入或者外表等形式引入到OLAP分析引擎里，例如，ClickHouse、StarRocks，提供高效、实时和灵活的数据分析能力，满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。实时数据流（DataFlow）：...

支持的数据源

数据入仓适用于对后续数据分析性能有较高要求的业务场景。数据入湖：将原始数据以开源的Iceberg、Paimon等表格式导入至数据湖中。数据湖可以是 AnalyticDB for MySQL 提供的湖存储，也可以是您自有的OSS Bucket。数据湖具有开源开放的特点...

Superset（仅对存量用户开放）

Superset是一款轻量级BI工具。您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-...

Druid（仅对存量用户开放）

应用场景实时数据分析是Apache Druid最典型的使用场景。该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询...

SmartData常见问题

类似于MaxCompute数仓上的数据处理方式，方式详情请参见基于MaxCompute数仓上的数据，JindoFS如何帮助机器学习训练？如果使用JindoFS，如何迁移HDFS上的数据？您可以使用Jindo DistCp同步HDFS数据至JindoFS或OSS。Jindo DistCp比Hadoop ...

Hudi存储

Apache Hudi是一个支持插入、更新、删除的数据湖框架，通常用于基于对象存储构建低成本Lakehouse。同时Apache Hudi还支持多版本的⽂件管理协议，提供⼊湖和分析过程中的增量数据实时写⼊、ACID事务、小⽂件⾃动合并优化、元信息校验和...

读写Doris

如果是在EMR on ECS创建包含Doris服务的数据分析（OLAP）集群，详情请参见创建集群。本文以在EMR on ECS创建包含Doris服务的集群为例，后续简称EMR Doris集群。使用限制 Serverless Spark引擎的版本要求为esr-2.6.0、esr-3.2.0、esr-4.2.0...

报告内AI助手

小Q报告支持小Q问数、智能洞察等AI能力，您可以通过AI助手，在报告种生成分析大纲，并基于该分析大纲使用小Q问数填充相关的数据；在插入图表之后，您可以使用洞察分析对某个章节整体做一个总结分析；此外，您还可以对文本内容转化生成...