大数据处理应用-大数据处理应用文档介绍内容-移动阿里云

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

什么是MaxFrame

MaxFrame是阿里云MaxCompute为了满足用户在Python生态中日益增长的高效大数据处理和AI开发需求，提供的基于Python编程接口的分布式计算框架。您可直接利用MaxCompute的海量计算资源及数据通过MaxFrame进行TB/PB级数据处理、可视化数据探索...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

Spark应用性能诊断

使用性能诊断工具可以快速定位性能瓶颈（例如：内存峰值、Spill等），提高数据处理效率。大规模应用负载均衡：Spark应用在高并发负载运行时，可能会出现性能问题，例如：数据倾斜、长尾任务、负载不均衡。对Spark应用进行性能诊断，可以...

应用场景

用于数据仓库的任务调度传输方式：数据迁移对于每天处理大量事务数据的大型在线应用程序，您可能需要采用“次日仓库策略”，定期将数据传输到数据仓库。例如，您希望将迁移安排在业务低峰期，以便将当天的事务数据传输到数据仓库。通过该...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

典型使用场景

HBase具有高吞吐，低延迟，schemaFree，水平扩展等能力，被很多大数据类应用选择。而接合LindormStreams+Blink/Spark，可以构建出一套完整的实时数据系统：应用解耦-实时同步到消息队列通常业务发生之后，应用系统产生的数据需要被其他...

Data+AI和数据科学

PyODPS DataFrame提供了很多pandas-like的接口，但扩展了它的语法，比如增加了MapReduce API来扩展以适应大数据环境。内置聚合、排序、去重、采样、可视化绘图等常用函数。Mars 在Python生态中，有NumPy、Pandas、Scikit-Learn等丰富的科学...

数据集成

您可以使用现有的应用程序客户端、数据处理工具和大数据框架，无需修改代码即可无缝连接和操作PolarSearch中的数据。资源汇总 PolarSearch通过完全兼容OpenSearch/Elasticsearch的生态工具链，实现了与下述资源的无缝集成：大数据分析：...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

离线集成

解决企业复杂大数据批处理难题，支持企业精细化运营、数据营销、智能推荐等大数据业务场景。离线集成功能底层基于Spark开发，支持提升Hadoop平台运行速度的应用场景。说明如果您在使用该功能的过程中有任何疑问或问题，请使用钉钉搜索钉钉...

内建函数概述

MaxCompute预置了多种函数，可满足大部分数据处理需求。本文介绍MaxCompute提供的函数类型及函数使用相关说明。函数类型函数类型说明日期与时间函数支持处理DATE、DATETIME、TIMESTAMP等日期类型数据，实现加减日期、计算日期差值、...

数据标准概述

统一、标准的数据指标体系为各主题的数据分析提供支持，提升数据处理和分析效率，提供业务指标的事前提示、事中预警、事后提醒，实现数据驱动管理，让决策者快速获取决策信息。前提条件已购买数据标准增值服务并且当前租户已开通数据...

数据标准概述

统一、标准的数据指标体系为各主题的数据分析提供支持，提升数据处理和分析效率，提供业务指标的事前提示、事中预警、事后提醒，实现数据驱动管理，让决策者快速获取决策信息。前提条件已购买数据标准增值服务，详情请参见开通...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

支持的云服务

云原生数据仓库 PostgreSQL 版云原生数据仓库 AnalyticDB PostgreSQL 版（AnalyticDB for PostgreSQL）具备完整的事务处理、高吞吐写入、流批一体分析能力，提供高性能数据处理和在线分析能力，与MaxCompute结合应用于大数据驱动业务系统...

交叉透视表

动作动作说明请求透视表接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如交叉透视列表配置了API数据源为 https://api.test ，传到请求透视表接口动作的数据为 { id:'1'}，则最终请求接口为 ...

近实时数仓

针对这些问题近几年大数据开源生态也推出了各种解决方案，最流行的就是Spark/Flink/Presto开源数据处理引擎，深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客，践行统一的计算引擎和统一的数据存储思想来综合提供解决方案，解决Lambda...

数据库节点

SAP HANA SAP HANA是一个高性能的内存数据库和应用平台，结合了数据库、数据处理和应用平台功能，以提供企业级内存计算的能力。更多介绍请参见 SAP HANA。Vertica Vertica是一个高性能的列式存储数据库管理系统（DBMS），可高速处理和查询...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

2023年

云服务接入组件接入新增新增支持阿里云大数据计算服务MaxCompute监控接入。云服务接入组件接入新增企业云监控数据接入支持自动抓取实例资源组、地域、账号ID等元信息，并自动将其作为监控指标的Label写入实例的指标中，同时支持用户...

数据导入

MySQL PostgreSQL HDFS S3 支持支持 大数据量ETL处理，需结合计算逻辑（如SQL/DataFrame）的离线导入场景。通过Spark导入数据 DataX 插件化架构：支持20+数据源扩展，提供离线批处理同步，适配企业级异构数据迁移。MySQL Oracle HDFS Hive...

使用云数据库创建数据表

在云数据库RDS版控制台，创建一个MySQL类型的数据库实例，并创建两个数据表，分别用于存储设备上报的温度数据和服务应用处理后的温度数据。前提条件已完成以下操作：创建项目和产品开发虚拟设备说明开发设备有不同的方法，用户可根据...

五分钟玩转ALB Ingress网关路由

依托 SAE 的网关路由兼容Nginx Ingress语义，SAE 具备配置以及管理复杂业务路由的能力，包括证书自动发现、流量入口可观测、多种应用层协议（QUIC等）兼容和大规模七层流量处理能力，让您轻松应对云原生应用流量管理。功能详解 ALB 应用型...

减灾与应急时空解决方案与案例

公司主营OpenRIS灾害风险大数据平台提供了海量灾害数据的快速地图展示、统计查询、切割下载、上传数据定制化在线分析等功能，实现了灾害数据与模型一体化云服务。在数据与系统上云过程前，遇到了如下挑战：长期积累的时空数据类型多、数据...

应用场景

阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力，已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...

产品概述

阿里云流数据处理平台数据总线 DataHub 是流式数据（Streaming Data）的处理平台，提供流式数据的发布(Publish)、订阅（Subscribe）和分发功能，支持构建基于流式数据的分析和应用。产品概述数据总线（DataHub）是阿里云提供的一款流式...

产品架构

流引擎 LindormStream 是面向流式数据处理的引擎，提供了流式数据的存储和轻计算功能，兼容Kafka API和Flink SQL，帮助业务基于Lindorm快速构建基于流式数据的处理和应用。LindormStream内部包含流存储、流计算两大组件，通过两者的一体化...

添加处理后数据到数据管理

数据处理后，需要将处理后的数据添加到数据管理中，以便被用于数仓建设、标签管理等数据中台任务。本文以倾斜数据处理后为例，介绍如何添加处理后数据到数据管理。前提条件已新建数据处理任务，具体操作，请参见新建数据处理任务。操作...

组件操作

Presto 通过命令行方式访问Presto 通过JDBC方式访问Presto Tez Apache Tez是一个面向大数据处理的分布式框架，提供高效、灵活的DAG（有向无环图）执行模型，主要用于替代MapReduce来优化查询和批处理任务的性能。Tez Phoenix Phoenix是构建...

查看数据处理任务运维信息

您可以通过查看数据处理任务运维信息，快速定位任务失败的原因。本文以倾斜数据处理后为例，介绍如何查看数据处理任务运维信息。操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择...

数据处理

数据处理类节点包括串行数据处理节点。本文介绍在蓝图编辑器中，配置数据处理类节点的方法。串行数据处理节点串行数据处理 节点，是使用串行方式来处理一个事件。使用场景：例如，小数0.835要转换成整数百分比83%，可经过：单位转换（83.5...

元数据采集概览

元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hologres、应用系统等，可一览不同数据源类型或应用系统已创建的采集任务数、采集对象类型等信息。前提条件需先在管理中心数据源管理应用系统创建应用系统，才能...

影响查询性能的因素

节点数量 AnalyticDB MySQL版使用了分布式数据处理架构，一条查询会被分解成多个Stage在不同的节点上并行执行。所以如果集群中的节点数量越多，AnalyticDB MySQL版处理查询的能力也会越强。您可以根据实际的业务需求来决定集群节点的购买...

新建数据处理任务

系统提供数据处理能力，包括倾斜数据处理、地形数据处理、三维模型处理、影像优化处理。本文以新建倾斜数据处理任务为例，介绍如何新建数据处理任务。前提条件已添加空间元数据，具体操作，请参见添加数据。已添加OSS类型云计算资源。...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测，故障发现以及业务趋势分析。...

离线数据处理

想用AnalyticDB进行离线数据处理？本篇实践教程通过详细的分步指南与代码示例，清晰讲解核心操作流程，助您快速构建并优化数据处理任务。

SDK简介

通过Jaeger上报Go应用数据通过SkyWalking上报Go应用数据通过Zipkin上报Go应用数据 Python应用通过OpenTelemetry上报Python应用数据通过SkyWalking上报Python应用数据通过Jaeger上报Python应用数据 Node.js应用通过OpenTelemetry上报...

开发指南

5.连续查询连续查询应用于大数据查询的场景。通过创建连续查询对新写入的数据预聚合处理，减少实时查询的数据量，从而减少计算量并降低查询延迟。6.预降采样预降采样应用于较长时间范围的数据查询场景。在数据写入时按照设置的规则将原始...