大数据学习的工具-大数据学习的工具文档介绍内容-移动阿里云

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

创建Greenplum数据源

背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 Greenplum官网。权限说明仅支持拥有新建数据源权限点的自定义全局...

应用场景

数据标准：管理数据标准和构建数据模型，将数据标准贯彻到数据质量分析、保障及检查的全过程中，将散乱的多源异构数据加工成标准、干净的数据资产，确保数据的完整性、一致性、准确性和可用性。数据建模：通过数据建模模块提供的各种数据...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

大数据AI公共数据集分析

学习如何在DataWorks进行简单的大数据分析操作，了解DataWorks的数据分析能力。操作难度低所需时间 30分钟使用的阿里云产品 DataWorks：一站式大数据开发与治理平台，创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应...

范围选择器功能介绍

范围选择器是一款自定义快速选择并生成区域范围数据连接的小工具，本文介绍范围选择器的详细功能。进入范围选择器单击 DataV.GeoAtlas地理小工具系列，打开范围选择器工具页面。范围选择器功能详解功能说明选择地图数据版本单击页面...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

数据源管理

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

创建SelectDB数据源

通过创建SelectDB数据源能够实现Dataphin读取SelectDB的业务数据或向SelectDB写入数据。本文为您介绍如何创建SelectDB数据源。背景信息 SelectDB是广泛应用于实时报表分析、即席多维分析、日志检索分析、数据联邦与查询加速等场景的数据...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

创建Lindorm（计算引擎）数据源

通过创建Lindorm（计算引擎）数据源能够实现Dataphin读取Lindorm（计算引擎）的业务数据或向Lindorm（计算引擎）写入数据。本文为您介绍如何创建Lindorm（计算引擎）数据源。背景信息 Lindorm（计算引擎）是阿里云推出的自研数据库，提供宽...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

新建 TiDB 数据源

增量同步选项设置 Kafka 数据源/Topic Kafka 数据源用于保存 Binlog 及 TiCDC 工具转换的 TiDB 数据增量日志的信息，以便数据传输消费。如果勾选该项，请在下拉列表中选择需要绑定的 Kafka 数据源及其 Topic。说明数据传输目前仅支持 VPC...

实验介绍

实验设计实验背景为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，实现定时定点进行画像分析，进而实现网站流量精细化运营操作，通过DataWorks在线学习的方式...

创建ArgoDB数据源

通过新建ArgoDB数据源能够实现Dataphin读取ArgoDB的业务数据或向ArgoDB写入数据。本文为您介绍如何创建ArgoDB数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

创建Paimon数据源

通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何创建Paimon数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色...

数据集成

数据集成是一个稳定高效、弹性伸缩的数据同步平台，致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。流程引导重要数据集成在使用时，仅支持在PC端Chrome浏览器69以上版本使用。数据集成的通用开发流程...

天任务依赖分钟任务最佳实践

每天00:00执行的SQL任务为天任务，依赖于每5分钟抽取一次数据的分钟任务。天任务会对当天同步任务抽取的所有数据进行计算。前提条件开始本实验前，您需要首先准备好以下内容：请确保已拥有阿里云账号并进行实名认证，详情请参见开通...

数据集成概述

数据集成是一个稳定高效、弹性伸缩的数据同步平台，致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。流程引导重要数据集成在使用时，仅支持在PC端Chrome浏览器69以上版本使用。数据集成的通用开发流程...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

数据分类分级

数据分类分级是保障数据安全的重要前提。它为各行业提供对敏感数据类型及其级别的识别与划分能力，能够有效检测组织数据资产中是否存在敏感信息，并根据其敏感程度进行等级划分。分类分级不仅有助于准确掌握数据资产中的敏感内容，还为后续...

EMR Hive单表离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转换成...

加载矢量数据

本文介绍如何将矢量数据加载到Ganos中，建议您使用的工具为shp2pgsql、ogr2ogr或QGIS。准备工作在加载矢量数据之前，请确保在数据库中已输入如下命令，来创建ganos_geometry扩展：CREATE EXTENSION ganos_geometry CASCADE shp2pgsql命令...

如何处理数据倾斜

常见于在KKV（Key-key-value）类型的数据结构中，例如Hash、List、Set、Zset等，存放过多或过大的field，从而导致单个Key过大，产生实例数据倾斜。关于如何在不影响业务的情况下，优雅地删除大Key或热Key，请参见优化大Key与热Key。避免...

加载矢量数据

本文介绍如何将矢量数据加载到 Ganos 中，建议您使用的工具为shp2pgsql、ogr2ogr或QGIS。准备工作在加载矢量数据之前，请确保在数据库中已输入如下命令，来创建ganos_geometry扩展：CREATE EXTENSION ganos_geometry CASCADE;shp2pgsql...

加载矢量数据

本文介绍如何将矢量数据加载到 Ganos 中，建议您使用的工具为shp2pgsql、ogr2ogr或QGIS。准备工作在加载矢量数据之前，请确保在数据库中已输入如下命令，来创建ganos_geometry扩展：CREATE EXTENSION ganos_geometry CASCADE;shp2pgsql...

加载矢量数据

本文介绍如何将矢量数据加载到 Ganos 中，建议您使用的工具为shp2pgsql、ogr2ogr或QGIS。准备工作在加载矢量数据之前，请确保在数据库中已输入如下命令，来创建ganos_geometry扩展：CREATE EXTENSION ganos_geometry CASCADE;shp2pgsql...

概述

可使用任何支持Parquet模块化加密的工具加解密数据。支持用户主密钥（MEK）、密钥加密密钥（KEK）和数据密钥（DEK）三种密钥。详情请参见密钥介绍及处理机制。功能优势功能丰富简单易用支持所有标准SQL的算子，密态计算应用无需对SQL...

DataWorks On EMR使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至EMR Hive的能力，您需要将Hive组件创建为 DataWorks的 Hive数据源，实现将其他数据源的数据同步至Hive数据源，或将Hive数据源的数据同步至其他数据源。同时，可根据需要选择...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

使用DataWorks（离线与实时）

MaxCompute支持通过DataWorks的数据集成功能以离线或实时方式导入其他数据源的数据，也支持导入部分类型的本地文件数据。本文介绍如何使用DataWorks将数据导入MaxCompute的。操作步骤已创建MaxCompute项目和创建表。用于存储后续同步...