大数据的计算工具-大数据的计算工具文档介绍内容-移动阿里云

生态对接

本文为您介绍MaxCompute支持连接的商业智能BI工具、数据库管理工具及ETL工具。MaxCompute的生态架构如下图所示。商业智能（BI）工具商业智能（BI）工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化，以直观的...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

兼容性概述

BI分析工具连接MaxCompute，能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源，为您带来更高效的数据分析体验。为了帮助您更清晰地使用BI工具连接访问MaxCompute，本文为您介绍MaxCompute支持连接的BI分析工具，以及工具与...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

兼容性概览

为了帮助您更清晰地使用外部工具连接访问MaxCompute，本文将为您介绍MaxCompute支持连接的数据库管理工具，以及工具与MaxCompute在数据库连通性、列举数据库、查看表等方面的兼容性。数据库管理工具与MaxCompute的兼容性如下。工具连接...

计算设置概述

设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端托管的PB级高并发实时数据仓库，具备海量数据计算无缝伸缩能力设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL E-...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute 实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持...

Tablestore外部表

注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务，所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时，推荐您使用Tablestore私网地址，即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...

选择连接工具

本文为您介绍连接并处理MaxCompute项目数据工具的应用场景、运行环境要求以及使用指引。您可根据业务需要和相应准备的环境，选择合适的连接工具。前提条件已创建MaxCompute项目。更多创建MaxCompute项目操作，请参见创建MaxCompute项目。...

RDS搭配大数据计算服务实现大规模数据计算

本文介绍RDS MySQL如何结合大数据计算服务MaxCompute使用。开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的存储和计算，提供海量数据仓库解决方案以及针对大数据的分析建模服务。通过数据集成 ...

ECS资源复用版

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格，旨在将ECS闲置实例转换为可用的MaxCompute计算资源，该方式可以充分利用已有的计算资源，而不需要额外购买新的MaxCompute计算资源，从而在满足大数据处理需求的同时，提高资源利用...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

基本概念

M MaxCompute 大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的TB、PB级数据仓库解决方案，提供了完善的数据导入方案以及多种经典的分布式计算模型，能够快速地解决海量数据计算问题。通过数据集成服务，可将Lindorm数据导入...

查询执行模式

相比较于全内存计算的 Interactive 模式，Batch 模式可以对查询的任务进行分批执行，每个子任务在内存不足的情况下，自适应地将内存数据换出到磁盘，降低数据计算的成本，提升数据处理的容量上限。Interactive模式 AnalyticDB MySQL 接收到...

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

支持的连接器

MySQL√流模式 SQL和DataStream 是云数据库RDS MySQL版×流模式和批模式 SQL 是 大数据计算服务MaxCompute√流模式和批模式 SQL和DataStream 不支持更新和删除结果表数据，只支持插入数据。数据总线DataHub√流模式和批模式 SQL和...

应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。说明更多场景案例请参见阿里云实时计算Flink版产品案例和解决方案汇总。背景信息作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS...

基本概念

项目是指用户创建的一组具备相关性数据的计算实例的集合。实例实例是指用户创建的针对多个数据进行同一类型AI计算所创建的一个计算任务。设备设备指IPC、NVR等能产生视频数据的相关设备，该设备同时符合GB/T28181-2016、GA/T1400协议，...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

基于混合负载的查询优化

Batch模式：采用批计算架构，通过DAG进行任务切分，分批调度，满足有限资源下大数据量计算，支持计算数据落盘，适用于计算量大，吞吐高的复杂分析场景。资源池混合负载隔离 AnalyticDB MySQL版弹性版本支持资源池多租户隔离。通过一个实例...

创建数据板块

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。创建Dev-Prod模式数据板块，请参见创建Dev-Prod模式数据板块。Basic模式生成独立的Basic数据板块，数据生产过程稳定且便捷。如果您关注数据...

创建数据板块

如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。创建Dev-Prod模式数据板块，请参见创建Dev-Prod模式数据板块。Basic模式生成独立的Basic数据板块，数据生产过程稳定且便捷。如果您关注数据...

函数

自定义函数（UDF）：为MaxCompute提供了高度的灵活性，允许您根据具体业务逻辑进行定制化的数据计算和分析。自定义函数（UDF）可以进一步分为标量值函数（UDF）、自定义聚合函数（UDAF）和自定义表值函数（UDTF）三种类型。您在开发完成UDF...

企业版及社区兼容版功能对比

计算资源：在设置的计算资源自动弹性的区间内，采用基于负载自动弹性方式进行资源的自动扩缩容，避免资源闲置浪费，并降低数据库运维成本。存储资源：采用OSS共享存储方案，利用OSS数据冗余机制保障数据高可用，并且相比于社区兼容版存储...

数据质量保障原则

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。例如，从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要...

基本概念

本文列出了蚂蚁隐私计算服务平台涉及的基本概念，以便于您更好地理解产品。...在线特征指机构所拥有的供安全计算节点访问的内部特征服务接口，在多方安全模型的在线预测过程中，各方的计算节点需要通过接口获取各自的在线特征用于模型预测。

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

数据传输费用（公网下载）

本文介绍MaxCompute中数据下载计费规则。MaxCompute仅对公网的下载数据进行收费，并按照下载的数据大小按量计费。MaxCompute会在第二天给出您的下载费用账单，您可以进入费用中心查看。下载计费规则如下。计费公式价格说明一次下载...

调优集群性能

UPDATE SQL 如果单个UPDATE WHERE语句命中了较多行数据，计算引擎需要计算出所有命中行的主键，并更新其对应的字段值，然后再逐个下发给存储节点进行标记旧行以及追加（Append）新行的操作。一个UPDATE SQL操作步骤可能会放大很多倍，从而...

存储费用

MaxCompute会对存储的数据（例如表或资源）及备份的数据，按照数据容量大小进行计费。本文为您介绍存储费用的计费规则。背景信息 MaxCompute数据的压缩比一般在5倍左右，因此多数情况下，您上传的数据文件大小与实际存储在MaxCompute的大小...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

SDK接口

本文为您介绍流式数据通道SDK接口的使用方法。使用说明您可以基于MaxCompute Studio通过Java SDK使用MaxCompute流式数据通道服务。您可以使用以下配置在MaxCompute Studio上添加指定版本的pom依赖。groupId>...

Tunnel操作

MaxCompute通过Tunnel实现上传下载数据功能。本文为您介绍如何通过Tunnel上传、下载数据。Tunnel操作详情请参见 Tunnel命令。Tunnel操作常用命令如下。类型功能角色操作入口上传数据将本地文件的数据上传至MaxCompute的表中，以追加...

UDT示例

聚合操作 UDT实现聚合的原理是，先用内建函数 COLLECT_SET 或 COLLECT_LIST 将数据转变成List，之后对该List应用UDT的标量方法计算数据的聚合值。示例如下，计算BigInteger的中位数（由于数据是 java.math.BigInteger 类型的，所以不能直接...

2024年

对应地域所有项目的生命周期都将与按量付费标准服务的生命周期保持一致，所有项目的存储、下载等按量付费账单归属的产品明细为 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变为 大数据计算服务MaxCompute...

认识MaxCompute Studio

MaxCompute Studio是阿里云MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具，是一套基于流行的集成开发平台IntelliJ IDEA的开发插件，帮助您便捷、快速地进行数据开发。本文将为您介绍MaxCompute Studio的功能界面和常用...

2023年

MaxCompute服务不可用赔付案例说明 2023-07-25 新增MaxCompute停止服务规格转换操作指引新说明阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务，您需要将这些版本的计算资源转换为...

自定义函数（邀测中）

AnalyticDB for MySQL 计算再将最终的计算结果返回至客户端。注意事项 Remote UDF功能仅支持标量UDF函数。语法 remote_call('returnType','func_name',['{external_config}'|NULL],X1,X2,.,Xn)参数说明参数说明 returnType 返回值的数据...