分布式数据分析-分布式数据分析文档介绍内容-移动阿里云

计费项

重要若源数据库为分布式实例（PolarDB分布式版、DMS LogicDB、MongoDB），则DTS同步和数据校验功能的价格还与分布式数据库节点数量有关。实例计费项计费规则数据迁移实例链路配置费用数据迁移实例仅支持按量付费，计费规则如下：仅在...

产品功能

分布式计算提供简单、易用的分布式编程模型，支持进行大数据批处理。单机随机挑选一台机器执行。更多信息，请参见单机。广播所有机器同时执行且等待全部结束。更多信息，请参见广播。Map模型类似于Hadoop MapReduce里的Map。只要实现...

概述

全局一致性 PolarDB-X 是一款分布式数据库，数据存放在多个数据节点（DN）上，当分布式事务存在的情况下，恢复后的实例需要保证多个数据节点间的数据一致性。下图通过转账测试给出了全局一致性的示例：PolarDB-X 中存放了一张用户的账户...

流式数据通道概述

MaxCompute流式数据通道服务功能点如下：提供流式语义API：通过流式服务的API可以方便地开发出分布式数据同步服务。支持自动创建分区：解决数据同步服务并发创建分区导致的并发抢锁问题。支持增量数据异步聚合（Merge）：提升数据存储效率...

如何设计宽表主键

Lindorm宽表引擎是一款分布式数据引擎，宽表引擎中的数据均按照主键进行分布。在执行查询时，如果表中存在多列主键，系统会从最左边的主键开始匹配。如果主键设置不当，则可能导致主键无法被有效利用，进而产生热点问题，影响查询性能。...

如何分析数据分布不均衡

概述 PolarDB-X 是由阿里巴巴自主研发的PolarDB分布式版数据库，在物理资源上是由多个节点所组成的分布式集群。通过数据分区的方式，可以将数据分布到集群中的多个存储节点，发挥多个节点的存储和计算能力。当数据分布不均匀，大部分数据...

Binlog日志服务

PolarDB-X 是兼容MySQL生态的分布式数据库。通过实例内 PolarDB-X 的CDC组件，能够提供与MySQL binlog格式兼容的变更日志，并且对外隐藏了实例扩缩容、分布式事务、全局索引等分布式特性，让您获得与单机MySQL数据库一致的使用体验。...

算子

Aggregation AnalyticDB MySQL版是一个分布式数据库，支持多节点并行完成聚合操作（更多关于聚合和分组聚合的信息，请参见分组聚合查询优化）。Aggregation算子通过 sum()、count()、avg()等函数对数据进行聚合或分组聚合操作。...

客户案例

该服务通过订阅数据包返还数据到MaxCompute，预置分析模板并结合可视化分析BI工具来快速完成数据分析工作，为企业提供更加灵活的一站式数据分析能力。解决方案架构如下。详细案例信息，请参见友盟+案例。电商案例：玩物得志客户简介玩物...

产品功能

分布式计算提供简单、易用的分布式编程模型，可以进行大数据跑批。单机：随机挑选一台机器执行。详情请参见单机。广播：所有机器同时执行且等待全部结束。详情请参见广播。Map模型：类似于Hadoop MapReduce里的Map。只要实现一个Map方法...

数据分析整体趋势

随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon Redshift，Snowflake，Alibaba Cloud AnalyticDB，Google BigQuery等。这些云原生数据仓库技术分别起源...

库表

AnalyticDB MySQL 是分布式数据库，数据需要根据分布字段均匀地分布在各个后台节点才能保证尽可能高的利用资源。分布字段选择不合理，会导致写入时存在热点，降低写入性能。分区字段合理性。AnalyticDB MySQL 后台以分区为粒度进行数据存储...

PolarDB-X

PolarDB-X（原DRDS升级版）是由阿里巴巴自主研发的云原生分布式数据库，融合分布式SQL引擎DRDS与分布式自研存储X-DB，基于云原生一体化架构设计，可支撑千万级并发规模及百PB级海量存储。本文主要介绍如何通过DLA Serverless Spark访问云...

Map模型

基于MapJobProcessor，调用Map方法，即可实现大数据分布式跑批的能力。注意事项 SchedulerX不保证子任务一定执行一次，在特殊条件下会failover，可能会导致子任务重复执行，需要业务方自己实现幂等。SchedulerX使用的是Hessian序列化框架，...

数据节点管理

登录云原生分布式数据库控制台。在页面左上角选择目标实例所在地域。在实例列表页，单击 PolarDB-X 2.0 页签。找到目标实例，单击实例ID。在左侧导航栏中，单击数据节点管理。单击页面右侧的新建资源池。在弹框中输入资源池名称，在...

索引优化

但是在类似与 AnalyticDB PostgreSQL版这样的分布式数据库中，应该谨慎的选择索引的使用。在大部分场景下，AnalyticDB PostgreSQL版更适合快速的顺序扫描，或者结合稀疏索引来进行减少数据的I/O操作。AnalyticDB PostgreSQL版会将数据...

表结构设计

尽量不要选择日期、时间和时间戳类型的字段作为分布键，写入时容易发生倾斜影响写入性能，且多数查询通常是限定了日期或者时间段，如：查询最近一天或者一个月的数据，可能会导致要查询的数据只存在于一个节点上，无法充分利用分布式数据库...

StarRocks概述

StarRocks采用分布式架构：对数据表进行水平划分并以多副本存储。集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。...

什么是EMR Serverless StarRocks

StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致的性能和丰富的OLAP场景模型，包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。StarRocks介绍 StarRocks是新一代极速全场景MPP（Massively Parallel Processing）...

MaxFrame概述

处理数据量大、处理逻辑复杂，需要基于MaxCompute海量数据及弹性计算资源、MaxFrame分布式能力进行大规模数据分析、处理及数据挖掘，提高开发效率。面向Data+AI开发，需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。支持的...

无感集成（Zero-ETL）

云原生数据仓库 AnalyticDB PostgreSQL 版提供无感集成（Zero-ETL）功能，可以帮助您一站式完成数据同步和管理，实现事务处理和数据分析一体化，专注于数据分析业务。公测时间 2024年4月1日至6月30日。公测地域华东2（上海）。方案概述 ...

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm：Hadoop可以运用在很多商业应用系统，可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算，允许数据载入内存作反复查询，融合数据仓库、流...

中间件产品总览

提供高可用消息云服务任务调度提供分布式任务调度框架提供自动化任务调度服务 分布式事务金融级分布式事务中间件支持跨数据库、跨服务以及混合分布式事务数据访问代理通过 MySQL 协议与 RDS\OceanBase 通信通过触发 DDL 任务管理...

分布式事务问题

数据访问代理是否支持分布式事务数据访问代理支持与分布式事务的集成使用。版本要求：数据访问代理 V2.9.5 或更高版本 分布式事务 V2.5.2 或更高版本具体配置信息请参考 分布式事务>开发指南>依赖与配置项。在数据访问代理 V2.9.5 之前的...

功能特性

分布式事务（Distributed Transaction-eXtended，简称 DTX）是蚂蚁集团自主研发的金融级分布式事务中间件，支持跨数据库、跨服务以及混合的方式处理分布式应用，具备多种接入模式和金融级配套功能，本文将主要介绍分布式事务的功能特性。...

产品和业务限制

分析型数据库MySQL版是分布式架构，支持计算和存储资源水平扩展，查询和写入性能与硬件资源量正相关，接近线性比例关系。在计算资源充足的情况下，特定目标单表查询近3个月内的数据，返回前10000条，响应时间不超过5秒，并发度不低于100。...

应用场景

如果交易服务使用数据访问代理来分库分表，虽然数据访问代理本身不支持分布式事务，但是分布式事务可以轻松和数据访问代理集成，使得数据访问代理具备分布式事务的处理能力，解决分库分表后的跨库分布式事务问题。跨服务的分布式事务例如...

产品概述

承载大量用户核心在线业务，横跨互联网、金融支付、教育、通信、公共事业等多行业，是阿里巴巴集团内部所有在线核心业务及众多阿里云客户业务接入分布式数据库的事实标准。产品特点稳定对于绝大部分应用而言，关系型数据库所承担的职责是...

链路查询

原 SOFAStack 中间件中的分布式链路分析产品，会逐步迁移到业务实时监控中，实现监控和链路分析一体化，方便用户对问题进行跟踪定位，对应用性能、调用链路进行实时分析。通过应用名进行搜索时，查询范围较大，可以通过添加搜索项，实现更...

源为PolarDB-X的任务配置方案

方案对比对比项方案一方案二性能拆分成多个DTS任务，性能成倍增长，可承载大规模的 PolarDB分布式版数据写入，仅配置一个以 PolarDB分布式版为源的DTS任务，当业务系统写入源实例数据量较大时，会存在性能瓶颈。稳定性稳定性较强。...

源为PolarDB-X的任务配置方案

方案对比对比项方案一方案二性能拆分成多个DTS任务，性能成倍增长，可承载大规模的 PolarDB分布式版数据写入，仅配置一个以 PolarDB分布式版为源的DTS任务，当业务系统写入源实例数据量较大时，会存在性能瓶颈。稳定性稳定性较强。...

功能特性

应用拓扑发现能持续地自动发现您整个...应用下钻基于多种维度对应用进行深度剖面分析，如应用的基础性能分析、中间件层分析、异常问题分析等，帮助建立由底层到上层间的数据关联信息，从而深度分析分布式场景下的影响应用性能的问题根因。

资源模型相关

分析型数据库MySQL版扩容/缩容是否需要停业务？分析型数据库MySQL版支持弹性扩缩容和升降配，...分析型数据库MySQL版升级是否需要停业务分析型数据库MySQL版是一个分布式高可用低延时机制，支持在线多节点滚动升级，升级不会影响业务运行。

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版自身不提供Binlog以及其他的一些限制，在业务设计、运维变更、数据质量以及业务开发时，会受到如下规范的约束，请您在实际使用中注意。概览业务设计规范数据库架构规范运维变更规范数据质量风险声明业务开发的...

源为PolarDB-X的功能规范和约束说明

由于 PolarDB分布式版自身不提供Binlog以及其他的一些限制，在业务设计、运维变更、数据质量以及业务开发时，会受到如下规范的约束，请您在实际使用中注意。概览业务设计规范数据库架构规范运维变更规范数据质量风险声明业务开发的...

常见问题

由于分布式DDL是基于ZooKeeper构建任务队列异步执行，执行等待超时并不代表查询失败，只表示之前发送还在排队等待执行，用户不需要重复发送任务。如何处理max_execution_time超时问题一般查询的执行超时时间，DMS平台上默认设置是7200s，...

产品优势

高可用和高可靠保障，数据安全可靠共享分布式存储的设计，彻底解决了主从（Master-Slave）异步复制所带来的备库数据非强一致的缺陷，使得整个数据库集群在应对任何单点故障时，可以保证数据零丢失。多可用区架构，在多个可用区内都有数据...

备份与恢复概览

数据库备份DBS 支持备份、恢复多种数据库引擎（备份源）...恢复SQL Server逻辑备份、恢复SQL Server物理备份恢复PostgreSQL数据库恢复MariaDB数据库恢复PolarDB MySQL数据库恢复MongoDB数据库恢复Redis数据库恢复PolarDB分布式版数据库

新建 PolarDB-X 1.0 数据源

背景信息 PolarDB-X 1.0 是由阿里巴巴自主研发的 PolarDB 分布式版数据库，融合分布式 SQL 引擎和分布式自研存储 X-DB，基于云原生一体化架构设计。PolarDB-X 1.0 可以支撑千万级并发规模，以及百 PB 级海量存储。详情请参见产品概述。...

查看应用性能详情

支持基于应用>上下游应用>接口等逐层下钻分析，建立从底层至上层间的数据关联信息，从而深度分析分布式场景下影响应用性能的问题根因。若发现某个接口调用异常，可跳转链路查询界面，按照相关参数查询链路。功能入口在左侧导航栏上，单击 ...