数据分析开源软件-数据分析开源软件文档介绍内容-移动阿里云

冷热分层

在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据分析和快速的事务更新写入，又能有效地降低冷热数据分离的成本。更多介绍请参见结构...

低成本历史库

大数据生态无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品，支持API访问和文件读取等多种对接方式，简单高效满足用户海量数据分析需求。典型应用用户交易记录通过App写入MySQL，LTS将MySQL中实时同步到Lindorm，近三个月状态...

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

监控数据质量

本文将以 ods_user_info_d_spark 表为例，演示如何通过数据质量模块的强/弱规则配置（表行数非0强校验和业务主键唯一性弱校验），在...后续操作数据加工完成后，您可以通过数据分析模块对数据进行可视化展示，详情请参见数据可视化展现。

准备环境

OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息和网站访问日志信息同步到OSS Bucket中，用于数据建模和数据分析。登录 OSS控制台。在左侧导航栏，单击 Bucket列表，在Bucket列表页面，单击创建Bucket。在创建...

开启部署集

使用限制本文操作仅适用于新版数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）和自定义集群（Custom）场景的集群。创建集群时配置的节点组部署集，创建完成后不支持更改。仅Master和Core类型的...

管理工作空间

工作空间管理员可以加入成员至工作空间，并赋予工作空间管理员、数据分析、数据开发或访客角色，以实现多角色协同工作。本文为您介绍工作空间的基本操作。前提条件已注册阿里云账号并完成实名认证。具体操作请参见账号注册（PC端）。已...

管理元数据

Paimon：高性能数据湖场景 Iceberg：大规模数据分析场景用户信息系统自动显示当前用户和关联的RAM用户。如果没有关联的RAM用户，创建DLF Catalog后将无法访问DLF数据目录。确认配置信息无误，单击确定按钮完成DLF Catalog创建。创建...

通过Kyuubi Token对DLF数据的权限管控

业务场景在企业级数据分析平台中，多个用户或应用需要通过统一的SQL网关（如Kyuubi Gateway）访问数据。为保障数据安全，必须隔离不同身份的访问，确保每个用户只能访问其权限范围内的数据。例如，分析师A只能查询业务报表，而数据工程师B...

选择地域和存储

适用场景数据湖架构冷数据分析 低延迟读写场景数据可靠性 OSS支持本地冗余存储和同城冗余存储，提供了跨可用区的高可靠性保障。由云存储底层保障，数据丢失风险极低。依赖副本机制（本地盘默认3副本，云盘默认2副本），局限于集群内部，...

Trino

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

准备环境

私有OSS环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息和网站访问日志信息同步到OSS Bucket中，用于数据建模和数据分析。登录 OSS控制台。在左侧导航栏，单击 Bucket列表，在Bucket列表页面，单击创建Bucket。在创建Bucket ...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

Flume

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

变更计算组规格

网络增强型：1CU=1核 CPU+4 GiB 内存，网络带宽为标准规格的2倍以上，适用于外表分析数据扫描量较大的场景，使用ESSD云盘作为StarRocks存储。高性能存储：需要您选择详细规格。该规格类型使用本地SSD数据盘作为StarRocks存储，适用于对存储...

使用Power BI连接EMR Serverless Spark并进行数据可视...

Power BI是一个统一、可扩展的自助服务和企业商业智能（BI）平台，支持用户对数据进行建模与可视化分析，并能够创建个性化的报表。本文介绍如何通过Power BI连接EMR Serverless Spark并可视化分析数据。使用限制不支持访问Paimon和Iceberg...

快速入门

RDS MySQL快速入门 RDS SQL Server快速入门 RDS PostgreSQL快速入门 RDS MariaDB快速入门数据库引擎简介 RDS MySQL MySQL MySQL是全球受欢迎的开源数据库之一，作为开源软件组合LAMP（Linux+Apache+MySQL+Perl/PHP/Python）中的重要一环，...

审计日志

StarRocks将所有审计日志存储在本地文件 fe/log/fe.audit.log 中，并且这些日志无法通过系统内部数据库访问。审计日志功能默认启用，并将安装AuditLoader插件，该插件能够从本地文件中读取日志，并通过HTTP PUT方法将其导入StarRocks数据库...

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

EMR Studio（已不支持新购）

覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势优势描述兼容开源 EMR Studio提供深度优化的开源组件使用体验，100%兼容开源大数据生态。您无需修改任务代码，即可平滑迁移上云。通过EMR ...

产品形态选型

该服务适用于多种场景，包括 OLAP 分析、实时数据仓库、湖仓分析以及轻量级数据仓库建设等，旨在助力企业实现湖仓一体的实时数据分析业务。主要特性全托管免运维：开箱即用，提供可视化实例管理、智能监控与健康诊断，大幅降低运维成本。...

Lindorm for Cassandra应用实践

可调一致性（无需repair数据）服务模式自建集群托管或者Serverless可选可靠性无SLA保障，开源软件BUG需要自行修复。SLA保障，并具备主备双活、备份、异地容灾等能力。冷热分离不支持透明冷热分离降低成本全文检索不支持兼容CQL...

EMR与自建Hadoop集群对比优势

开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和分析场景。对比项阿里...

创建集群

旧版数据湖：用于构建大规模数据处理框架和管道，适用于大数据分析，支持Apache Hive、Spark和Presto等开源框架。支持的集群类型如下：Hadoop：提供最丰富的开源组件列表，完全兼容Hadoop生态。可应用于大数据离线处理、实时处理和交互式...

数据上云工具

Fluentd（DataHub通道系列）Fluentd是一个开源的软件，用来收集各种源头日志（包括Application Log、Sys Log及Access Log），允许您选择插件对日志数据进行过滤，并存储到不同的数据处理端（包括MySQL、Oracle、MongoDB、Hadoop、Treasure ...

产品简介

什么是AnalyticDB AnalyticDB是阿里云自研的云原生实时数据仓库，支持从OLTP数据库和日志文件中实时写入数据，并秒级完成PB级数据分析。AnalyticDB采用云原生存算分离的架构，存储按量付费，计算弹性伸缩，同时具备离线处理与在线分析资源...

功能特性

查看作业列表 EMR Serverless 功能集功能功能描述参考文档 Serverless StarRocks 实例管理通过创建StarRocks实例，您可以快速获取一个托管的且高性能的环境，无需自行搭建和维护基础设施，轻松进行大规模数据分析和查询。创建实例扩缩...

创建Doris集群

业务场景选择 数据分析。产品版本默认最新的软件版本。服务高可用默认关闭。开启后集群会有3个节点支持FE高可用。可选服务根据您的实际需求选择其他的一些组件，被选中的组件会默认启动相关的服务进程。高级设置软件自定义配置：可...

云原生数据湖分析

云原生数据湖分析（Data Lake Analytics，简称DLA）是无服务器（Serverless）化的数据湖分析服务，支持按需与保留资源使用，打造最具性价比的数据湖分析平台；提供一站式的数据湖分析与计算服务，支持 ETL、机器学习、流、交互式分析，可以...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

数据分析整体趋势

近些年来，随着业务数据量的增多，企业需要能够对数据进行分析，助力商业决策，更好地发挥数据价值，而传统开源及商业关系型数据库通常为单机版，在海量数据分析场景下扩展能力有限，性能无法满足需求。以Teradata，Oracle Exadata为代表的...

支持的数据源

数据入仓适用于对后续数据分析性能有较高要求的业务场景。数据入湖：将原始数据以开源的Iceberg、Paimon等表格式导入至数据湖中。数据湖可以是 AnalyticDB for MySQL 提供的湖存储，也可以是您自有的OSS Bucket。数据湖具有开源开放的特点...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

Alibaba Cloud Linux 3软件兼容性列表

V6 金篆信科有限责任公司数据库 MariaDB 10.5.22 开源组件数据库 MongoDB 3.6.8 开源组件数据库 MySQL 8.0.36 开源组件数据库 PostgreSQL 13.16 开源组件数据库 Redis 6.2.7 开源组件大数据平台阿里云大规模计算软件 V1.0 阿里云...

整体架构

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...

Iceberg

无 x√自动合并小文件无 x√说明以上信息是在2021年9月份，客观分析开源Iceberg和商业版Iceberg现状之后制定的表格。随着后续版本的不断迭代升级，对比项状态可能发生变化。适用场景 Iceberg作为通用数据湖解决方案中最核心的组件之一，...

Sqoop使用说明

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。背景信息常见数据传输场景如下：将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...