大数据统计app-大数据统计app文档介绍内容-移动阿里云

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

数据开发（Data Studio）（新版）

Data Studio介绍 Data Studio是智能湖仓一体数据开发平台，内置阿里巴巴15年大数据建设方法论，深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等数十种大数据和AI计算服务，为数据仓库、数据湖、OpenLake湖仓一体数据架构...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

功能特性

DataWorks 提供一站式大数据开发与治理平台，涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力，支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成：全领域数据汇聚 DataWorks的数据...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

创建IMPALA数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

Append Delta Table数据组织优化

要求数据必须以插入或覆写数据（INSERT INTO|INSERT OVERWRITE）的形式一次性写入，在写入完成后，如果需要再进一步追加数据，则需要将表中原有的数据全部读取，与新增数据并集（UNION）之后再次写入，数据追加代价非常大，效率很低。...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询（旧版）。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见 SQL查询（旧版）。...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

数据扫描和识别

本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗？数据安全中心DSC（Data Security Center）采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响，不会影响...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP...

数据服务

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

数据服务概述

DataWorks数据服务模块是一个灵活轻量、安全稳定的数据API构建平台，作为数据库和数据应用之间的“桥梁”，DataWorks数据服务旨在为个人、团队和企业提供全面的数据服务和共享能力，帮助用户统一管理面向内外部的API服务。例如，您可以将...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

事件中心

在数据库日常运维中，您可以通过查看数据库实例中计划执行、正在执行和已执行完成的性能事件（例如异常事件、优化事件、弹性伸缩事件等），及时且全面地了解数据库的性能问题及相关的运维操作。本文介绍如何通过数据库自治服务DAS的性能...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...