分布式数据分析-分布式数据分析文档介绍内容-移动阿里云

FMT 模式参与者

本文将介绍如何：配置数据源创建数据表针对 SOFARPC 或 Dubbo 进行发布服务 FMT 模式参与者只需要替换数据源，即可将对该数据源的访问纳入到分布式事务中。一个数据源就是一个参与者。配置数据源您可以选择以下任一数据源配置方案：...

产品优势

数据访问代理的主要优势如下：分布式：数据读写存储集群化，不受单机限制，业务使用无连接数限制。弹性：数据服务可升降配，数据存储扁平化 scale-up（纵向扩展）和 scale-out（横向扩展），读写分离线性提升读能力。高性能：分库分表经典...

使用前须知

日志服务联合原生分布式关系型数据库推出SQL审计与分析功能，将原生分布式关系型数据库中的PolarDB-X 2.0 SQL审计日志投递到日志服务中，实现日志的实时查询、可视化分析、告警、投递、加工等操作。本文介绍PolarDB-X 2.0 SQL审计日志相关...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

基础术语

OceanBase OceanBase 是阿里巴巴与蚂蚁科技独立自主研发的一款分布式关系数据库产品，融合传统关系数据库和分布式系统的优势，具备高可用、高性能、高可扩展性，在功能上兼容 MySQL 等特点，在通用硬件上提供金融级高可用的数据库服务。...

CREATE TABLE

当数据写入分布式表时，会被自动分发到集合中的各个本地表中。当查询分布式表时，集合中的各个本地表都会被分别查询，并且把最终结果汇总后返回。您需要先创建本地表，再创建分布式表。语法：CREATE TABLE[db.]distributed_table_name ON ...

功能概览

应用下钻和性能分析支持基于应用>上下游应用>接口等逐层下钻分析，并展现其黄金性能指标（比如吞吐量、平均响应时、错误率、满意度等），建立由底层到上层间的数据关联信息，从而深度分析分布式场景下的影响应用性能的问题根因。...

事务与Read/Write Concern

所以对于许多MongoDB的实际应用场景，在合理的数据建模下，单文档原子性保证已经消除了对分布式事务的需求。当然，一些特殊的应用场景（比如金融、会计等）依然对于分布式事务有着强烈的需求。在4.2以上版本完全支持分布式文档以后，...

创建PolarDB-X 2.0数据订阅任务

本文介绍如何创建 PolarDB分布式版数据订阅任务。前提条件已创建 PolarDB分布式版实例和数据库，具体操作请参见创建实例和创建数据库。说明 PolarDB分布式版中的数据库须基于RDS MySQL创建，DTS暂不支持基于 PolarDB MySQL版创建的...

Quick引擎概述

Quick BI自研的计算内核Quick引擎，托管在阿里云上的SAAS服务实测数据十亿级数据在0.5秒以内完成聚合分析，另外由于依托阿里云，计算资源支持横向扩展，通过增加服务器还可以提供更强大的数据分析计算能力。为什么设计一个新的Quick引擎 ...

移除分布式实例

分布式实例不支持直接释放，若您需要释放闲置的云原生内存数据库Tair 分布式实例资源，您可以移除或释放分布式实例下各子实例，以节省资源。注意事项在移除或释放实例的过程中，分布式实例中未被操作的实例可正常访问，不会发生闪断。...

移除分布式实例

分布式实例不支持直接释放，若您需要释放闲置的云原生内存数据库Tair 分布式实例资源，您可以移除或释放分布式实例下各子实例，以节省资源。注意事项在移除或释放实例的过程中，分布式实例中未被操作的实例可正常访问，不会发生闪断。...

优化建议

对于不确定的SQL应在分布式数据库执行‘explain sql’命令，确定SQL有没有跨分区、有没有改写以及底层有没有合适的索引，合并时是否进行了排序和分组动作；对底层MySQL建立合适的索引，这一点看似与分布式数据库无关，但却是最重要的。分布...

产品架构

在Lindorm系统中，LindormSearch 既可以作为一种独立的模型，提供半结构化、非结构化数据的松散文档视图，适用于日志数据分析、内容全文检索；也可以作为宽表引擎、时序引擎的索引存储，对用户保持透明，即宽表/时序中的部分字段通过内部的...

常见问题

如果您使用的是数据访问代理中的分布式事务，因为数据访问代理和分布式事务已经深度集成，部署时是不需要任何依赖的，仅需一行事务开启 SQL 语句就能开启事务。如果您是基于 SDK 方式使用分布式事务，就需要在引入的分布式事务 SDK 的 pom....

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

公交出行：启迪公交

所属行业：公交出行网站地址：启迪公交客户感言“启迪公交从市场上诸多数据库产品中选中成熟稳定、经历过多年双十一考验的阿里云 PolarDB-X 分布式数据库方案，解决了数据库高并发访问和水平扩展的需求”。客户介绍启迪公交（北京）科技...

产品优势

高可靠通过分布式架构、数据三备份、消息At-least-once delivery、Failover和定期轮检等手段，保证任务调度和运行的高可靠。高性能支持秒级别调度，轻量级分布式计算可以帮助您完成准实时的大数据跑批。节约成本和提升效率无机器和人工...

数据科学计算概述

MaxFrame是由阿里云自研的分布式科学计算框架，是对历史相关产品功能（PyODPS、Mars）的重大升级，在MaxCompute之上提供一套完全兼容Pandas接口的API，让用户用更为熟悉、更符合Python社群习惯的方式使用MaxCompute。本文为您介绍...

分布式序列

数据访问代理提供了生成分布式环境下的分布式唯一序列（Sequence）的能力，该序列有全局唯一、全局递增的特性，常用于分库分表下的主键、业务主键生成的场景。重要数据访问代理分布式序列功能是基于数据库实现，如果需要使用该功能，需要...

概述

应用场景实时数据分析是Apache Druid最典型的使用场景。该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询...

多语言版本分片模型

动态分片：主要场景是分布式处理未知数据量的数据，例如一张大表在不停变更，需要分布式跑批。主流的框架为SchedulerX提供的MapReduce模型，目前还没有对外开源。功能特性多语言版本分片模型还具有以下特性。兼容elastic-job的静态分片...

实例介绍

数据访问代理实例在物理上是由多个数据访问代理服务器节点组成的分布式集群。数据访问代理的数据库是逻辑概念，只包含元信息，具体数据由后端连接的物理库存储。目前，只提供专享实例类型的数据访问代理实例。用户专享的数据访问代理集群...

引擎简介

Lindorm计算引擎是一款基于云原生多模数据库 Lindorm 核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务，满足用户在云原生多模数据库 Lindorm 支撑场景下的数据生产、交互式分析、机器学习和图计算等场景中的计算需求...

新增数据同步任务

本文以 RDS 数据源到分布式搜索服务（云搜 ZSearch）的实时同步为例，介绍如何新增数据同步任务。操作步骤进入数据同步服务控制台，在左侧导航栏中，选择数据同步任务。单击添加任务，选择 RDS 数据源同步到分布式搜索服务的场景。开始...

什么是MaxCompute

MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

多语言版本分片模型

动态分片：主要场景是分布式处理未知数据量的数据，例如一张大表在不停变更，需要分布式跑批。主流的框架为SchedulerX提供的MapReduce模型，暂时还没有对外开源。功能特性多语言版本分片模型还具有以下特性。兼容elastic-job的静态分片...

快速入门

产品使用 Elasticsearch Elasticsearch作为实时分布式搜索和分析引擎，可以快速地、近乎于准实时地存储、查询和分析超大数据集，可以快速构建日志分析、异常监控、企业搜索和大数据分析等各业务应用。Elasticsearch快速入门 Logstash ...

产品概述

时间序列数据库(Time Series Database,简称 TSDB)是一种高性能、低成本、...TSDB是一个分布式时间序列数据库，具备多副本高可用能力。同时在高负载大规模数据量的情况下可以方便地进行弹性扩容，方便用户结合业务流量特点进行动态规划与调整。

应用场景

下文以支付转账为场景说明消息队列如何实现以下功能：异步解耦 分布式事务的数据一致性削峰填谷异步解耦传统处理方式最常见的一个场景是支付转账成功后，需要生成交易双方的账单，并更新用户权益，发送用户通知。传统的做法有以下两种...

基本概念

分布式链路跟踪 EDAS鹰眼监控系统能够分析分布式系统的每一次系统调用、消息发送和数据库访问，从而精准发现系统的瓶颈和隐患。分布式任务管理 SchedulerX 是阿里巴巴中间件团队开发的一款分布式任务调度产品。用户在应用中依赖SchedulerX-...

备份恢复

备份数据登录 PolarDB分布式版控制台，选择目标实例所在地域。在实例列表页面单击实例名称。在左侧导航栏中单击备份恢复。单击数据备份。选择备份方式和备份级别。说明 PolarDB-X 1.0 只支持RDS级别的备份，如果所有库都在一个RDS上，...

云监控控制台查看监控

分布式表文件个数向分布式表写数据时待插入数据的文件个数。失败Query个数查询失败的语句个数。MaterializeMySQL同步个数使用MaterializeMySQL引擎创建的同步数据库个数。失败Insert Query个数插入失败的语句个数。Kafka外表个数已...

概述

背景信息随着互联网和物联网的飞速发展、数据规模急剧增长、数据来源多样化，同时数据分析需求及业务流程复杂性不断增加，这使得传统手动处理数据的方式无法满足现有需求。因此，需要一个自动化流程来确保数据处理、分析、备份等多种需求...

创建同步任务

部分数据源支持分布式模式执行任务，详情请参见各插件配置文档：支持的数据源与读写插件。配置任务依赖关系。双击当前业务流程，设置 insert_data 节点为 write_result 节点的上游节点。任务配置完成后，单击工具栏的图标，保存任务。...

通过DTS导入数据

通过数据传输服务DTS（Data Transmission Service），您可以将 PolarDB分布式版（原DRDS）的数据导入至 AnalyticDB MySQL 湖仓版（3.0）或数仓版（3.0），轻松实现数据的传输，用于实时数据分析。操作方法您可以选择数据同步或数据迁移...

日志同步分析概述

Kafka实时接收到Filebeat采集的数据后，输出到Logstash中进行过滤处理，最终将满足需求的数据输出到Elasticsearch中进行分布式检索，并通过Kibana进行分析与展示。查询分析RocketMQ客户端日志使用Beats、Elasticsearch、Logstash和Kibana...

基本概念

该系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法等，结合云原生多模数据库 Lindorm 宽表引擎强大的分布式存储能力以及DAL Spark分析平台，可以广泛应用于空间或时空存储、查询、分析和数据挖掘场景...

自动同步PolarDB-X元数据

PolarDB-X是高性能云原生分布式数据库，可支撑千万级并发规模及百PB级海量存储。PolarDB-X 2.0实例开通列存引擎，绑定湖仓版（3.0）集群后，湖仓版（3.0）集群会自动创建元数据发现任务，PolarDB-X 2.0实例列存表的元数据信息会自动...