大规模数据分析工具-大规模数据分析工具文档介绍内容-移动阿里云

DataWorks模块使用指引

规范模型设计：在进行大规模数据开发前，进行规范化的模型设计，以保证数据体系的有序与可维护性。此环节涵盖数仓规划、数据标准定义、维度建模（如设计维度表和事实表）以及核心业务数据指标的定义。数据处理加工：在数据开发的...

什么是数据管理DMS

AnalyticDB for PostgreSQL：云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。OSS：对象存储服务OSS（Object Storage Service）是阿里云提供的海量、安全、低成本、高可靠的 ...

产品架构

目标集群对查询请求进行大规模并发调度执行（Massively Parallel Processing），查询按需读取缓存或对象存储中的数据，完成后通过MySQL协议将结果返回。集群在查询处理过程中，采用了Pipeline执行框架、索引技术、缓存技术、向量化技术等...

物流行业：跨越速运

丰富的图表样式，支持快速拖拉拽生成数据分析报表，即便不依赖技术部门，业务人员也可自行创建进行数据分析。开放集成能力，满足个性化需求定制。对于需要注入更多行业经验的大体量物流企业来说，市场上可能没有任何一款产品可以100%贴合...

产品简介

DataV-Atlas是阿里云专业的地理数据可视化分析工具。本文系统阐述了其核心概念、功能特性与应用场景，助您快速上手，挖掘地理数据背后的业务价值。

产品优势

高性能&低成本超大规模数据写入实时可见，确保数据的强一致性。支持秒级甚至毫秒级对海量数据进行查询和计算，复杂SQL查询速度相比传统的关系型数据库快10倍。支持计算资源按需在线扩缩容、分时弹性和按需弹性等功能；同时支持冷热数据...

查询加速MaxQA概述

交互式数据分析 自助式 BI 工具和交互式数据探索平台使得非技术人员也能轻松进行复杂的数据分析。这类工具通常通过一系列短查询来实现动态筛选、排序、聚合等功能，提供灵活且直观的操作体验。支持拖拽式操作，无需编写复杂的 SQL 语句。...

实时数据消费

为您提供了一个强大的工具，用于结合流处理和批处理的数据分析。更多信息，请参见实时消费Kafka数据。使用场景构建实时分析报表及其他实时分析应用。结合增量实时物化视图构建流批一体的实时数仓。在采用SQL方式写入数据（UPSERT或UPDATE...

Quick BI如何接入TSDB

Quick BI是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。通过对数据源的连接和数据集的创建，对数据进行即时的分析与查询；通过电子表格或仪表板功能，以拖拽的方式进行数据的可视化呈现。连入成功后，您可以在...

使用须知

您可以查询并分析存储在MaxCompute上的大规模数据。MaxCompute SQL支持如下主要功能。功能项说明 DDL操作支持管理表、分区、列、生命周期及视图。DML操作支持插入或更新表、分区数据。DQL操作支持SELECT、子查询等多种查询操作。增强...

什么是EMR on ECS

相关文档 EMR支持数据湖场景、数据分析场景、实时数据流场景、数据服务场景，具体请参见应用场景。想了解EMR各版本支持的组件情况，请参见各版本支持的组件。想了解EMR集群的运维与监控能力，请参见集群运维和集群监控。

什么是DataWorks

DataWorks 构建了大规模数据开发与治理的一站式能力。MaxCompute 支持10万台集群，服务100+集团BU、20万+阿里员工的日常运营。第四阶段(2021)云上数据中台与业务伴生全面云原生化，业务与数据深度融合：双11核心系统100%上云，阿里云抗住...

功能特性

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。Notebook 近实时数仓 DeltaTable增量表格式 Delta Table 存储表是MaxCompute的数据存储单元，MaxCompute中不同类型作业的操作对象...

开源支持

Python SDK PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作和DataFrame框架，让您可以轻松地在MaxCompute上进行数据分析。更多详情请参见GitHub项目 aliyun-odps-python-sdk 和包括所有接口、类的细节等详细内容的 ...

Druid（仅对存量用户开放）

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

制造行业：日钢集团

为应对当前钢铁行业面临的挑战，日钢集团积极拥抱数字化转型，与 Quick BI 强强联手，进一步提高生产效率和数据分析能力，共同开启了一场数字化革新之旅。业务需求在数字化浪潮中，传统的信息化系统、手工Excel报表等已难以满足现代企业...

应用场景

数据报告自动化企业经常需要基于最新数据生成动态的数据分析报告，以监控业务的关键指标（KPI）。DataV-Note通过自然语言交互自动报告生成功能，能够自动将数据汇总并提取关键信息，将其转换为易于理解的图表和报告。这一过程大大减轻了...

RDS搭配大数据计算服务实现大规模数据计算

本文介绍RDS MySQL如何结合大数据计算服务MaxCompute使用。开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的...通过数据集成服务，可将RDS数据导入MaxCompute，实现大规模的数据计算，如下图所示。

Hologres SQL节点

Hologres与MaxCompute在底层实现了无缝连接，使您无需迁移数据，即可通过Hologres SQL节点直接使用标准的PostgreSQL语句来查询和分析MaxCompute中的大规模数据，从而快速获得查询结果。前提条件已在工作空间配置页面添加 Hologres 计算...

什么是DataV-Atlas

适用角色 数据分析科学家地理信息系统专家市场营销专家城市规划专家产品价值专业的时空分析工具 提供一系列强大的空间查询和分析功能，可以根据时间维度对地理空间数据进行分析。帮助用户在地图上进行可视化分析时间序列数据的变化...

功能特性

查看作业列表 EMR Serverless 功能集功能功能描述参考文档 Serverless StarRocks 实例管理通过创建StarRocks实例，您可以快速获取一个托管的且高性能的环境，无需自行搭建和维护基础设施，轻松进行大规模数据分析和查询。创建实例扩缩...

什么是DataV-Board

发展历程 DataV-Board 历经十多年发展，积累了面向大规模数据场景的实时渲染技术，沉淀了多业务场景的可视化组件库，支持专业可视化应用的低代码搭建，并且具备数字孪生应用的搭建能力。到今天，DataV-Board 发展成为一款综合性的数据可视...

客户案例

视频介绍社交媒体行业：欢聚时代大规模数据湖建设客户简介欢聚时代成立于2005年，是全球领先的社交媒体企业，旗下运营多款社交娱乐产品，包括即时通讯、电商业务等。目前基于Hadoop+HDFS开源架构进行离线（HDFS+Spark）、实时计算...

近实时数仓

现状分析典型的数据处理业务场景：对于时效性要求低的大规模数据全量批处理的单一场景，直接使用MaxCompute足以很好的满足业务需求。对于时效性要求很高的秒级实时数据处理或者流处理，则需要使用实时系统或流系统来满足需求。综合业务...

内置时空数据引擎Ganos

同时，为适合自动驾驶以及三维数据建模需求，Ganos提供了对大规模激光点云(LiDAR)数据存储和管理分析功能，支持多种高效压缩算法以及40多个空间关系、操作、统计值计算函数。支持构建广泛的行业生态解决方案 PolarDB Ganos可服务于政务、...

产品形态选型

选型建议业务需求推荐产品形态推荐理由产品运维范围 大规模 Spark 作业、AI 训练与推理需要秒级弹性、按需付费，并具备湖仓一体能力。EMR Serverless Spark Fusion Engine 性能提升至开源 Spark 的 4 倍，适合复杂湖仓和 AI 任务。...

行业趋势与挑战

越来越多的企业大数据分析已不再局限于传统的T+1场景，对数据的实时性分析和处理提出了更高要求。传统的批处理模式往往有数小时甚至数天的延迟，不能满足T+0的业务需要，用户要求在秒级，甚至毫秒级完成对海量数据分析。系统极复杂大数据...

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute：用于进行大规模数据计算，详情请参见什么是MaxCompute。AnalyticDB MySQL：用于进行海量数据实时高并发在线分析，详情请参见云原生数据仓库AnalyticDB MySQL版。DataWorks：可实现ETL功能，对复杂数据集进行采集、...

规格及选型

16C128G ESSD云盘 PL2 适合企业级平台建设，适用于高并发场景，大规模企业核心数据平台推荐选择。高性能（基础版）2C8G ESSD云盘 PL0 POC测试。个人学习使用，体验测试产品能力。4C16G ESSD云盘 PL0 ESSD云盘 PL1 适合计算存储均衡场景，...

功能简介

同时，随着数据量剧增，在海量数据中快速发现高质量的洞察报告，需要花费大量时间进行数据分析，从而才有可能提取有效知识。为了将业务人员从重复、无效的分析工作释放出来，并通过智能化的能力帮助业务管理者、运营、业务分析师等人员高效...

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

监控分析平台对比

运营、分析：大规模数据分析，如OLAP场景，秒级到小时级延时。资源需求估算难对于快速发展的业务，各类数据的规模在一开始是很难准确估算的，经常遇到：新业务接入，数据量无准确估算参考。业务快速发展，数据暴增。数据使用需求变动，...

什么是EMR Serverless StarRocks

此外，该引擎还能够利用其他二级索引，在大规模数据更新的场景下，依然能够保持对查询请求的超高速响应。智能物化视图自动化数据同步与实时更新：StarRocks支持使用物化视图进行查询加速和数仓分层。StarRocks的物化视图能够实现自动同步...

数据导入

大规模数据：导入接口：Kafka数据源优先选择 Routine Load，非Kafka数据源优先选择 Stream Load。导入工具：阿里云生态MySQL数据源优先选择 DTS，非阿里云生态MySQL数据源与非MySQL数据源优先选择 Flink。更多接口与工具概览，请参见下述 ...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点，便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...

数据导入方式介绍

常见使用场景低成本存储和分析场景当您希望将日志（SLS）和消息类（Kafka）数据进行长期低成本存储以及大规模分析时，可以通过数据管道服务（APS）将 SLS 和 Kafka 数据实时同步至 AnalyticDB for MySQL 的数据湖或数据仓库中。...

Vertica节点

背景信息 Vertica是一个高性能的列式存储数据库管理系统（DBMS），可高速处理和查询大规模数据集，主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行不同引擎...

典型应用

海量数据实时多维查询在数亿至数百亿记录规模大宽表，数百以上维度自由查询，响应时间通常在100毫秒以内。让业务人员能持续探索式查询分析，无需中断分析思路，便于深挖业务价值，具有非常好的查询体验。用户画像分析随着数据时代的发展...

通过TPC-DS Benchmark 测试

TPC-DS（Transaction Processing Performance Council Decision Support Benchmark）是由TPC（Transaction Processing Performance Council）组织开发的，以决策支持为重点的基准测试，旨在评估不同系统在处理复杂查询和大规模数据分析方面...

整体架构

可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问，提供更一体化的体验。存储层：只需一份全量数据，满足离线和在线场景。在线分析场景需要数据尽量在高性能存储介质上提高性能，离线场景需要数据...