免费的大数据工具-免费的大数据工具文档介绍内容-移动阿里云

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

基础：购房群体简单分析

在左侧导航栏产品类别下依次打开 大数据计算数据开发与服务，然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片，单击立即试用。重要免费试用抵扣包仅适用于初次使用DataWorks产品的新用户，老客户进入此页面将展示为不符合...

进阶：商品订单畅销类目分析

在左侧导航栏产品类别下依次打开 大数据计算数据开发与服务，然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片，单击立即试用。重要免费试用抵扣包仅适用于初次使用DataWorks产品的新用户，老客户进入此页面将展示为不符合...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

数据集成概述

5分钟快速了解背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效地配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错、...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多详情请参见 Apache Hudi官网。权限说明仅支持具备新建数据源权限点的自定义...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

什么是MaxCompute

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和 AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。视频简介产品简介 MaxCompute是面向分析的企业级 SaaS ...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

添加数据源

您可以通过数据灾备的手动添加数据源功能，将不同环境的数据库添加至数据灾备中，同时数据灾备也支持自动添加数据源，可以将阿里云上的RDS实例自动同步到数据灾备数据源中，便于后续对数据源进行管理与备份。费用说明添加数据源...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版的Global AWR性能报告功能，在提供数据库...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版（兼容Oracle）的Global AWR性能报告功能，...

Global AWR用户指南

自动负载信息库AWR（Automatic Workload Repository）是数据库收集和分析性能数据的工具。通过AWR工具，可以从数据库的动态视图等统计信息中生成某个时间段的性能报告。概述 PolarDB PostgreSQL版（兼容Oracle）的Global AWR性能报告功能，...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景。功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

StarRocks跨集群数据迁移工具

本文将指导您如何使用StarRocks跨集群数据迁移工具。该工具提供全量及增量同步功能，旨在为您解决迁移过程中源集群与目标集群的数据同步问题，确保数据一致性的同时，最大限度减少对业务运营的影响。迁移准备在开始迁移前，请完成以下准备...

数据查询

使用预降采样查询提升查询性能大范围的时间查询预降采样通过存储引擎将写入的数据降低精度后单独存储，查询时按查询条件中指定的降采样精度自动查询最接近预降采样精度的数据，然后再对查询的数据进行聚合计算，减少实时查询的计算数据...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

OSS/OSS-HDFS

JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式），JindoFSx存储加速系统（原JindoFS Cache模式，5.0版本后更名为JindoCache），JindoSDK大数据万能SDK和全面兼容的生态工具（JindoFuse、...

实时数据消费

实时数据消费功能包含高速数据导入API和实时数据源消费两部分，可实现数据直接写入Segment（分片单元），避免通过COPY或INSERT方式造成的Master写入负载高的问题，也可实现使用 AnalyticDB PostgreSQL版单产品直接消费Kafka数据。...